JP2018523144A

JP2018523144A - 提案される音声ベースのアクションクエリの提供

Info

Publication number: JP2018523144A
Application number: JP2017550867A
Authority: JP
Inventors: ヴィクラム・アガワル; プラヴィール・クマール・グプタ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-05-27
Filing date: 2016-05-26
Publication date: 2018-08-16
Anticipated expiration: 2036-05-26
Also published as: WO2016191540A1; JP6993466B2; KR20190121876A; DE112016000986T5; CN110851470B; CN107430626A; US10504509B2; US20240144924A1; EP3404654B1; US20160350304A1; US20200027448A1; KR101870934B1; GB2553936A; JP2019050019A; JP2020144932A; EP3262636A1; CN107430626B; KR20180072845A; EP3262636B1; EP3404654A1

Abstract

開示される技術は、コンピューティングデバイス上でユーザによって見られるかまたは他の方法で消費されるコンテンツに特化したコンピュータベースのアクションを開始するために、コンピューティングデバイスに口頭入力として提供されることができる音声ベースのアクションクエリなど、コンピュータベースのアクションを開始するために発話され得る様々な音声ベースのアクションクエリをユーザが発見し易くする。いくつかの実施形態では、概して、コンピューティングデバイスを介した提示のための少なくとも1つの提案される音声ベースのアクションクエリを、コンピューティングデバイス上でユーザによって最近見られたコンテンツを考慮して、決定することを対象とする。いくつかの実施形態は、追加としてまたは代替として、概して、コンピューティングデバイスにおいて少なくとも1つの提案される音声ベースのアクションクエリを受信することと、コンピューティングデバイスを介して音声ベースのクエリの提供を開始するための入力に応答して、提案として提案される音声ベースのアクションクエリを提供することとを対象とする。

Description

本発明は、提案される音声ベースのアクションクエリの提供に関する。

音声クエリアプリケーションは、コンピューティングデバイスの制御においてますます使用されている。音声クエリアプリケーションの1つの用途は、携帯電話、腕時計、タブレットコンピュータ、ヘッドマウントデバイス、仮想または拡張現実デバイス、車両電子システム(例えばナビゲーションおよびオーディオ機能を組み込んだ自動車システム)などのポータブルコンピューティングデバイスにおいてである。多くの音声クエリアプリケーションは、自然言語要求に応答する、および/または、ユーザとの前後のダイアログや会話を管理するように発達してきた。多くの音声クエリアプリケーションは、人間の声のオーディオ記録をテキストに変換する最初の音声-テキスト変換と、ユーザの要求の意味を決定しようとしてテキストを分析するセマンティック解析の両方を組み込んでいる。ユーザの口頭入力の決定された意味に基づいて、コンピュータベースのアクション、例えば、検索の実行、運転指示の提供、またはその他にはコンピューティングデバイスの1つまたは複数のアプリケーションの制御などが行われ得る。

音声クエリアプリケーションの普及率および/または能力は増加しており、増加し続ける可能性がある。しかし、多くの場合、ユーザは、ユーザによって利用されているコンピューティングデバイスの音声クエリアプリケーションによって与えられる能力を十分に理解していないことがある。

本明細書の技術のいくつかの実施形態は、音声ベースのアクションクエリなど、コンピュータベースのアクションを開始するために発話され得る様々な音声ベースのアクションクエリのユーザ発見を容易することができる。音声ベースのアクションクエリは、コンピューティングデバイス上でユーザによって見られているコンテンツまたは他の方法で消費されるコンテンツに特化されたコンピュータベースのアクションを開始するために、コンピューティングデバイスに口頭入力として提供され得る。

本明細書のいくつかの実施形態は、一般に、コンピューティングデバイス上でユーザが最近見たコンテンツを考慮して、コンピューティングデバイスを介して提示するための少なくとも1つの提案される音声ベースのアクションクエリを決定することに関する。提案される音声ベースのアクションクエリは、コンテンツの1つまたは複数の態様に向けられたコンピュータベースのアクションのパフォーマンスを開始するために発話され得る音声クエリを示す。この技術のいくつかの実施形態は、付加的または代替的に、コンピューティングデバイスにおいて少なくとも1つの提案される音声ベースのアクションクエリを受け取ることと、コンピューティングデバイスを介して音声ベースのアクションのクエリの提供を開始するための入力に応答して、提案として、提案される音声ベースのアクションクエリを提供することとを含む。提供された提案される音声ベースのアクションクエリは、コンピューティングデバイス上に現在および/または最近見えるコンテンツに特化されてもよく、コンピューティングデバイスによって提供されるコンテンツの表示に基づいて生成されてもよい。

いくつかの実施形態では、提案される音声ベースのアクションクエリは、音声ベースのクエリを開始するユーザ入力(例えば、音声クエリインターフェース要素の選択または音声ベースのクエリを開始するフレーズの発話)に応答して、およびその入力に続く提案される音声ベースのアクションクエリの必要性の表示に基づいて、提示されてもよい。これらの実施形態のいくつかでは、提案される音声ベースのアクションクエリの必要性の表示は、音声ベースのクエリを開始するユーザ入力の後のしきい値時間内に、ユーザからの口頭入力がないことを含むことができる。例えば、これらの実施形態のバージョンでは、音声ベースのクエリを開始するユーザ入力の4秒(または他のしきい値時間)以内にユーザが口頭入力を提供しないことに応答して、提案される音声ベースのアクションクエリが提示され得る。

いくつかの実施形態では、提案される音声ベースのアクションクエリは、コンピューティングデバイス上で現在見られているコンテンツなど、コンピューティングデバイス上で最近見られたコンテンツのエンティティに特化されたアクション用語およびエンティティ用語を含む。それらの実施形態のうちのいくつかでは、提案される音声ベースのアクションクエリは、エンティティの代名詞など、エンティティのための汎用記述子を含むことができる。たとえば、俳優のハリソンフォードに関連付けられたエンティティの場合、提案される音声ベースのアクションクエリが「彼についてもっと詳しく教えてください」である場合があり、ハリソンフォードの代わりに「彼」が使用される。また、例えば、特定のレストランでは、提案される音声ベースのアクションクエリは、レストランの特定の名前の代わりに、例えば「そこに」と「それの」が使用されて、「そこにナビゲートしてください」、「それのメニューを見せてください」などであってもよい。

いくつかの実施形態では、コンピューティングデバイス上で最近見られたコンテンツの表示を、コンピューティングデバイスから受け取ることを含む方法が提供される。この方法は、コンテンツにおいて参照されるエンティティを決定するステップと、1つまたは複数の電子データベース内のエンティティにマッピングされるコンピュータベースのアクションを決定するステップとをさらに含む。方法はさらに、コンピュータベースのアクションの実行を開始し、エンティティに基づいて選択された少なくとも1つのエンティティ用語を含む少なくとも1つのアクション用語を含む、提案される音声ベースのアクションクエリを生成するステップを含む。この方法は、コンピューティングデバイスから音声ベースのクエリ入力指示を受け取るステップと、音声ベースのクエリ入力指示を受け取ることに応答して、提案される音声ベースのアクションクエリをコンピューティングデバイスに提供するステップとをさらに含む。音声ベースのクエリ入力指示は、コンピューティングデバイスを介したユーザの入力の受け取りを示し、コンピューティングデバイスを介した音声ベースのクエリの提供を開始する。提案される音声ベースのアクションクエリは、音声ベースのクエリのための提案として表示するためにコンピューティングデバイスに提供される。

本明細書に開示されたこれらのおよび他の実施形態は、以下の特徴のうちの1つまたは複数を任意選択で含むことができる。

いくつかの実施形態では、この方法は、提案される音声ベースのアクションクエリの必要性の表示を決定するステップと、提案される音声ベースのアクションクエリの必要性の表示を決定することに基づいて、提案として表示するための提案される音声ベースのアクションクエリを提供するステップとをさらに含む。いくつかの実施形態では、提案される音声ベースのアクションクエリの必要性の表示を決定するステップは、音声ベースのクエリの提供を開始するために、ユーザの入力からしきい値時間内にユーザからの口頭入力をコンピューティングデバイスで受け取らないことに基づく。

いくつかの実施形態では、提案される音声ベースのアクションクエリの必要性の表示を決定するステップは、音声ベースのクエリの提供を開始するためにユーザの入力に続いて、コンピューティングデバイスによって少なくともしきい値雑音レベルを検出することに基づく。

いくつかの実施形態では、コンテンツの表示を受け取るステップは、コンテンツの用語およびコンテンツ内の各用語の表示属性を受け取るステップを含み、コンテンツで参照されるエンティティを決定するステップは、用語およびコンテンツ内の用語の表示属性を定義するステップを含む。

いくつかの実施形態では、エンティティにマッピングされたコンピュータベースのアクションを決定するステップは、エンティティのクラスを決定するステップと、クラスへのコンピュータベースのアクションのマッピングを識別するステップとを含む。

いくつかの実施形態では、音声ベースのアクションクエリを生成するステップは、エンティティにマッピングされた汎用記述子を決定するステップと、汎用記述子を少なくとも1つのエンティティ用語として使用するステップとを含む。いくつかの実施形態では、汎用記述子はエンティティにマップされた代名詞である。汎用記述子がエンティティにマッピングされた代名詞である実施形態のバージョンでは、方法は、エンティティのイメージを識別するステップと、エンティティのイメージを、提案される音声ベースのアクションクエリに対する注釈として表示するためにコンピューティングデバイスに提供するステップとをさらに含む。

いくつかの実施形態では、方法は、コンピューティングデバイスから、コンピューティングデバイスの好ましい言語の指示を受け取るステップをさらに含む。いくつかの実施形態では、提案される音声ベースのアクションクエリを生成するステップは、アクション用語をコンピュータベースのアクションにマッピングすることと、アクション用語を好ましい言語にマッピングすることとに基づいて、アクション用語を選択するステップを含む。いくつか実施形態では、提案される音声ベースのアクションクエリを生成するステップは、好ましい言語に基づいてエンティティ用語を選択するステップを含む。

いくつかの実施形態では、方法は、コンピューティングデバイスからアプリケーション情報を受け取るステップをさらに含む。アプリケーション情報は、コンピューティングデバイスにインストールされたアプリケーションと、コンピューティングデバイスにインストールされたアプリケーションのバージョンのうちの少なくとも1つを示す。いくつかの実施形態では、コンピュータベースのアクションを決定するステップは、コンピューティングデバイスにインストールされたアプリケーションとインストールされたアプリケーションのバージョンのうちの少なくとも1つへのコンピュータベースのアクションのマッピングに基づいて、コンピュータベースのアクションを選択するステップを含む。

いくつかの実施形態では、方法は、コンテンツが生成されたアプリケーションの指示を受け取るステップをさらに含む。いくつかの実施形態では、コンピュータベースのアクションを決定するステップは、コンテンツが生成されたアプリケーションの指示に基づいてコンピュータベースのアクションを選択するステップを含む。

いくつかの実施形態では、コンピューティングデバイスにおいて提案される音声ベースのアクションクエリを選択することにより、コンピューティングデバイスの第1のアプリケーションが、コンピュータベースのアクションの少なくとも1つの態様を実行する。いくつかの実施形態では、方法は、少なくとも1つの電子データベース内のエンティティにマッピングされた追加のコンピュータベースのアクションを決定するステップと、前記追加のコンピュータベースのアクションの実行を開始し、前記少なくとも1つのエンティティ用語を含む少なくとも1つの追加のアクション用語を含む追加の提案される音声ベースのアクションクエリを生成するステップと、音声ベースのクエリ表示を受け取ることに応答して、追加の提案される音声ベースのアクションクエリをコンピューティングデバイスに提供するステップとを含み、追加の提案される音声ベースのアクションクエリは、音声ベースのクエリの追加の提案として表示するためにコンピューティングデバイスに提供される。いくつかの実施形態では、コンピューティングデバイスにおいて追加の提案される音声ベースのアクションクエリを選択することにより、コンピューティングデバイスの第2のアプリケーションが、追加のコンピュータベースのアクションの少なくとも1つの態様を実行する。

いくつかの実施形態では、コンピューティングデバイス上で最近見られたコンテンツは、コンピューティングデバイスを介した音声ベースのクエリの提供を開始するために、コンピューティングデバイスを介したユーザの入力に関連する直近に見られたコンテンツである。いくつか実施形態では、コンピューティングデバイスを介して音声ベースのクエリの提供を開始するために、コンピューティングデバイスを介したユーザの入力に応答して、コンテンツの表示がコンピューティングデバイスによって提供される。

いくつかの実施形態では、コンピューティングデバイス上で最近見られたコンテンツは、コンピューティングデバイスのアプリケーションにおいて直近に見られたコンテンツである。いくつかの実施形態では、コンピューティングデバイスのアプリケーションにおいて直近に見られたコンテンツは、コンピューティングデバイスによって現在表示されているコンテンツである。

いくつかの実施形態では、コンピューティングデバイスを介して音声ベースのクエリの提供を開始するための入力をコンピューティングデバイスで受け取るステップを含む方法が提供される。この方法は、コンピューティングデバイスによって、入力を受け取ることに関連して直近に表示されたコンテンツを識別するステップをさらに含む。この方法はさらに、コンテンツの表示を提供するステップと、コンテンツの表示に基づいて、少なくとも1つのアクション用語および少なくとも1つのエンティティ用語を含む提案される音声ベースのアクションクエリを受け取るステップとを含む。エンティティ用語は、コンテンツのエンティティを参照し、アクション用語はエンティティにマッピングされ、コンピュータベースのアクションのパフォーマンスを開始する。この方法は、入力を受け取ることに関連して、しきい値時間内にユーザから口頭入力が受け取られていないと判定するステップと、口頭入力がしきい値時間内に受け取られなかったと判定したことに応答して、提案される音声ベースのアクションクエリを音声ベースのクエリの提案として提供するステップとをさらに含む。

本明細書で開示されたこれらのおよび他の実施形態は、以下の特徴のうちの1つまたは複数を任意選択で含むことができる。

いくつかの実施形態では、方法は、コンテンツの表示と共にコンピューティングデバイスの好ましい言語の指示を提供するステップをさらに含む。これらの実施形態のいくつかでは、提案される音声ベースのアクションクエリは、好ましい言語の指示を提供することに応答して、コンピューティングデバイスの好ましい言語で受け取られる。

いくつかの実施形態では、方法は、提案される音声ベースのアクションクエリの選択を識別するステップと、提案される音声ベースのアクションクエリの選択を識別することに基づいてコンピュータベースのアクションを実行するステップとをさらに含む。

さらに、いくつかの実施形態は、メモリと、メモリに格納された命令を実行するように動作可能な1つまたは複数のプロセッサとを含む装置を含み、命令は前述の方法のいずれかを実行するように構成される。いくつかの実施形態はまた、前述の方法のいずれかを実行する1つまたは複数のプロセッサによって実行可能なコンピュータ命令を格納する、非一時的コンピュータ可読記憶媒体を含む。

本明細書でより詳細に説明される前述の概念および追加の概念のすべての組み合わせが、本明細書に開示される主題の一部であると考えられることを理解されたい。例えば、本開示の最後に現れる特許請求される主題のすべての組み合わせは、本明細書に開示される主題の一部であると考えられる。

本明細書で開示された技術を実施することができる例示的環境のブロック図である。コンピューティングデバイス上でアクセスされているコンテンツを考慮して、コンピューティングデバイスを介して提示するための少なくとも1つの提案される音声ベースのアクションクエリを決定する例を示す図である。コンピューティングデバイスにおいて少なくとも1つの提案される音声ベースのアクションクエリを受け取り、音声ベースのクエリの提供を開始するための入力に応答して提案される音声ベースのアクションクエリを提案として提供する例を示す図である。コンピューティングデバイス上でアクセスされているコンテンツを考慮して、コンピューティングデバイスを介して提示するための少なくとも1つの提案される音声ベースのアクションクエリを決定する例示的な方法を示すフローチャートである。コンピューティングデバイスにおいて少なくとも1つの提案される音声ベースのアクションクエリを受け取り、音声ベースのクエリの提供を開始するための入力に応答して提案される音声ベースのアクションクエリを提案として提供する例示的な方法を示す図である。コンピューティングデバイスのアプリケーションに表示されるコンテンツを示す例示的なグラフィカルユーザインターフェースを示す図である。図6Aのコンテンツに基づいて生成された提案される音声ベースのアクションクエリを表示するための例示的なグラフィカルユーザインターフェースを示す図である。図6Aのコンテンツに基づいて生成された提案される音声ベースのアクションクエリを表示するための別の例示的なグラフィカルユーザインターフェースを示す図である。コンピューティングデバイスのアプリケーションに表示されるコンテンツを示す別の例示的なグラフィカルユーザインターフェースを示す図である。図7Aのコンテンツに基づいて生成された提案される音声ベースのアクションクエリを表示するための例示的なグラフィカルユーザインターフェースを示す図である。コンピューティングデバイスの例示的なアーキテクチャを示す図である。

本明細書で説明されている実施形態では、コンピューティングデバイス上でアクセスされているコンテンツを考慮して、1つまたは複数の提案される音声ベースのアクションクエリを生成するための技術が開示される。コンピューティングデバイス上のユーザによって現在アクセスされているコンテンツに特化されたコンピュータベースのアクションを開始するためのコンピューティングデバイスへの口頭入力として提供され得る音声ベースのアクションクエリなど、コンピュータベースのアクションを開始するために発話され得る様々な音声ベースのアクションクエリのユーザ発見を容易にする技術も開示される。選択された実施形態に関するさらなる詳細は、以下に説明される。しかし、本明細書に開示された実施形態は排他的ではないように、他の実施形態も考えられることは理解されよう。

本明細書で説明される実施形態の一例として、ユーザが、選択された映画、女優、俳優などに関する詳細な情報を提供するユーザの電話上のアプリケーションを使用していると仮定する。さらに、ユーザが、映画のタイトル、映画の概要、映画の俳優などを含むコンテンツのような、映画ブレードランナーについてのコンテンツにナビゲートするためにアプリケーションを使用したと仮定する。ユーザは、電話を介して音声クエリを開始することができ、アプリケーションに提示されたコンテンツの表示は、ユーザの電話によってサーバに送信され得る。サーバは、コンテンツの表示を利用して、コンテンツの支配的エンティティが映画「ブレードランナー」に関連するエンティティであることを決定し、映画に関連するコンピュータベースのアクションを決定し、映画に対するそれらのアクションの実行を引き起こすであろう提案される音声ベースのアクションクエリを決定できる。例えば、「どのようにして鑑賞することができますか」、「鑑賞させてください」、「それについてもっと教えてください」という提案される音声ベースのアクションクエリが決定されてもよい。提案される音声ベースのアクションクエリは、ユーザに提示するためにユーザの電話機に提供されてもよい。例えば、提案される音声ベースのアクションクエリは、任意選択で「以下のいずれか1つを話してみてください」などのテキストと共に、音声クエリのグラフィカルインターフェースの近くの1つまたは複数の情報「カード」および/または「ドロップダウンメニュー」にグラフィカルに表示されてもよい。

いくつかの実施形態では、提案される音声ベースのアクションクエリは、音声クエリが開始されてから少なくともしきい値期間が経過するまで、ユーザの電話を介してユーザに提示されない。いくつかの実施形態では、ユーザは、関連アクションの実行のためのクエリを実行するために発話する(例えば、それをタップすることを介して)ことなく、提案される音声ベースのアクションクエリの1つを選択してもよく、および/またはユーザは、関連するアクションの実行のためにクエリを実行するために提案される音声ベースのアクションクエリの1つに発話してもよい。

一般に、コンピュータベースのアクションの実行を開始する音声ベースのアクションクエリは、コンピュータベースのアクションにマップされたアクション用語と、アクションの焦点であるエンティティ用語とを含むクエリである。いくつかの実施形態では、アクション用語は動詞であり、エンティティ用語は名詞または代名詞であってもよい。実行されると、音声ベースのアクションクエリは、アクション用語にマッピングされたコンピュータベースのアクションの実行を引き起こし、エンティティ用語にマッピングされたエンティティを考慮してコンピュータベースのアクションの実行を引き起こす。

例えば、「ブレードランナーについてもっと教えてください」という音声ベースのアクションクエリは、「ブレードランナー」に特化された検索クエリを提出させ、検索クエリに応答して検索結果を提供することができる。また、例えば、「コーヒーショップにナビゲートする」という音声ベースのアクションクエリは、ナビゲーションアプリケーションに、近くのコーヒーショップへのアクティブなナビゲーション指示をユーザに提供させることができる。さらに別の例として、「レストランAに電話する」という音声ベースのアクションクエリは、電話ダイヤルアプリケーションに、レストランAの電話番号を事前入力および/または自動的に呼び出させることができる。

いくつかの実施形態では、コンピュータベースのアクションは、アクションを実行できる1つまたは複数のコンピュータアプリケーションにマッピングされてよく、アクションに関連付けられた用語を含む音声ベースのアクションクエリの実行により、それらのうちの少なくとも1つアクションにアクションを自動的に実行させ、またはアクションの実行のためのオプションを提示させてもよい。例えば、「電話」に関連するアクションが、電話アプリケーションにマッピングされ、「レストラン予約を行う」に関連するアクションが、レストラン予約アプリケーションなどにマッピングされ得る。いくつかの実施形態では、音声クエリアプリケーションは、アクションの一部、アクションの全体を実行し、および/または音声ベースのアクションクエリを処理して、別のアプリケーションによるアクションの実行を容易にすることができる(例えば、クエリを解析し、解析されたクエリとアプリケーションのAPIに基づいた別のアプリケーションとインターフェースする)。

次に、図1を参照すると、本明細書に開示された技術を実施することができる環境例が示されている。例示的な環境は、音声対応コンピューティングデバイス120、提案される音声ベースのアクションクエリシステム140、エンティティおよびアクションデータベース162、およびネットワーク101を含む。ネットワーク101は、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)(例えば、インターネット)などの1つまたは複数のネットワークを備えることができる。いくつかの実施形態では、音声対応コンピューティングデバイス120は、携帯電話などのポータブルコンピューティングデバイス、タブレットコンピュータ、ラップトップコンピュータ、時計、ヘッドマウントデバイス(例えば、メガネ)、仮想または拡張現実デバイス、他のウェアラブルデバイス、オーディオ/ビデオシステム、ナビゲーションシステム、自動車および他の車両システムなどである。

図1の実施形態では、音声対応コンピューティングデバイス120によって受け取られた音声入力は、音声クエリアプリケーション122によって処理され、音声アプリケーション122は、いくつかの実施形態では、音声クエリ機能を含む検索アプリケーションであってもよい。いくつかの実施形態では、音声クエリアプリケーション122は、スタンドアロンアプリケーションであってもよい。いくつかの実施形態では、音声クエリアプリケーション122は、全体的または部分的に、コンピューティングデバイス120のオペレーティングシステムまたはファームウェアの一部として統合されてもよい。

図示された実施形態における音声クエリアプリケーション122は、音声アクションモジュール123、インターフェースモジュール124、およびレンダリング/同期モジュール125を含む。音声アクションモジュール123は、音声クエリアプリケーション122に向けられた音声入力を監視し、受け取られた音声入力の分析を調整し、受け取られた音声入力に応答する1つまたは複数のコンピュータベースのアクションの実行を調整する。本明細書で説明するように、音声アクションモジュール123は、提案される音声ベースのアクションクエリシステム140への情報の提供と、音声クエリに対する提案としてシステム140から受け取られた推奨される音声ベースのアクションクエリの提示とをさらに調整する。

インターフェースモジュール124は、提案される音声ベースのアクションクエリシステム140および/または他のシステムとのインターフェースを提供する。インターフェースモジュール124は、コンピューティングデバイス120上でアクセスされるコンテンツの表示、コンピューティングデバイス120の好ましい言語の表示、コンピューティングデバイス120の1つまたは複数のアプリケーション126に関連する情報、および/または音声ベースのクエリ入力指示などの、提案される音声ベースのアクションクエリシステム140に情報を提供する。インターフェースモジュール124は、インターフェースモジュール124によって提供される情報に応答して、提案される音声ベースのアクションクエリシステム140からの提案される音声ベースのアクションクエリをさらに受け取る。

レンダリング/同期モジュール125は、例えば、特定の音声対応デバイスに適した視覚ディスプレイ、発話オーディオ、または他のフィードバックインターフェースを介して、ユーザへの提案される音声ベースのアクションクエリの提示を管理する。さらに、いくつかの実施形態では、モジュール125はまた、応答またはアクションが、別のオンラインサービスにおいてユーザのために維持されるデータに影響を与える(例えば、音声入力が、クラウドベースのカレンダーに保持されるアポイントメントの作成を要求する)などのときに、他のオンラインサービスとの同期を処理する。

いくつかの実施形態では、モジュール123〜125のうちの1つまたは複数のすべてまたはいくつかを、別のモジュールで組み合わせおよび/または実装することができる。例えば、いくつかの実施形態では、モジュール124の1つまたは複数の態様をモジュール123に組み込むことができる。また、モジュール123〜125は、コンピューティングデバイス120上に提供されるものとして図1の例示的な環境に示されているが、これに限定されるものではない。他の実施形態では、モジュール123〜125のうちの1つまたは複数のすべてまたはいくつかを、提案される音声ベースのアクションクエリシステム140および/または別のコンピューティングデバイスに実装することができる。モジュール123〜125の追加の説明は、本明細書において(例えば、図3に関連する説明において)提供される。

音声クエリアプリケーション122は、例えば音声-テキストモジュール126および/またはセマンティックプロセッサモジュール127を含む音声入力を処理するために、様々なミドルウェア、フレームワーク、オペレーティングシステム、および/またはファームウェアモジュールに依存してもよい。モジュール126および/または127の1つまたは複数の(例えば、すべての)態様は、音声クエリアプリケーション122の一部として、および/またはシステム140などの別のコンピューティングデバイスにおいて実装されてもよい。音声-テキストモジュール126は、(例えば、デジタルオーディオデータの形式で)音声入力のオーディオ記録を受け取り、デジタルオーディオデータを1つまたは複数のテキストワードまたはフレーズ(本明細書ではトークンとも呼ばれる)に変換する。いくつかの実施形態では、音声-テキストモジュール126は、ユーザの発言と効果的に並行して、すなわちユーザが完全な口頭要求を発言する前に、トークンがモジュール126から出力されるように、音声入力がトークン単位で、リアルタイムまたはほぼリアルタイムでテキストに変換されるようなストリーミングモジュールでもある。音声-テキストモジュール126は、1つまたは複数の音響モデルおよび/または言語モデルに依存することができ、これらのモデルは、言語における単語シーケンスと一緒に、オーディオ信号と表音単位との関係を一緒にモデル化する。いくつかの実施形態では、単一のモデルを使用することができ、他の実施形態では、複数のモデルをサポートすることができ、例えば複数の言語、複数の話者などをサポートすることができる。

音声-テキストモジュール126が音声をテキストに変換するのに対し、セマンティックプロセッサモジュール127は、目的のためにテキストモジュール126に音声から出力されたテキストのセマンティックまたは意味を識別し、または適切な応答を考案しようとする。例えば、セマンティックプロセッサモジュール127は、1つまたは複数の文法モデルに依存して、アクションテキストを特定のコンピュータベースのアクションにマッピングし、そのようなアクションの実行を制約するエンティティテキストおよび/または他のテキストを識別することができる。いくつかの実施形態では、単一のモデルが使用されてもよく、他の実施形態では、例えば、異なるコンピュータベースのアクションまたはコンピュータベースのアクションドメイン(すなわち、通信関連アクション、検索関連のアクション、オーディオ／ビジュアル関連のアクション、カレンダー関連のアクション、デバイス制御関連のアクションなどの関連するアクションの集合)をサポートするために、複数のモデルがサポートされてもよい。

一例として、(コンピューティングデバイス120および/またはリモートコンピューティングデバイスに記憶された)文法モデルは、コンピュータベースのアクションを、「についてもっと教えてください」、「の行き方」、「へナビゲートする」、「鑑賞する」、「電話する」、「電子メールを出す」、「連絡する」などのような、音声ベースのアクションクエリのアクション用語にマッピングすることができる。例えば、「もっと教えてください」というアクション用語は、検索クエリと検索結果のアクションの提示にマッピングされてもよい。アクション用語「鑑賞する」は、1つまたは複数のアプリケーション126を介して実行されるビデオ視聴アクションにマッピングされてもよい。アクション用語「電話する」は、アプリケーション126のうちの1つまたは複数を介して実行される電話アクションにマッピングされてもよい。

セマンティックプロセッサモジュール127が依存する文法モデルおよび/または他のモデルは、音声-テキストモジュール126によって提供されるテキスト入力に基づいてコンピュータベースのアクションの実行を開始するための様々なルールを組み込むことができる。いくつかの実施形態では、例えば、アクションは、F(i_T)= A_u、Tは入力解釈のタイプを表し、Uは出力アクションのタイプを表す、ような関数Fとして定義することができる。Fは、例えば、f(i_t)= a_uのように互いにマッピングされた複数の入力対(T、U)を含むことができ、ここで、tはタイプtの入力プロト変数であり、a_uは出力モジュール引数またはu型のパラメータである。例えば、コンピューティングデバイス上で直近に見られたコンテンツの表示、コンピューティングデバイスの地理的位置などに基づいて、いくつかのパラメータを音声入力として直接受け取ることができ、いくつかのパラメータは別の方法で決定され得ることが理解されよう。たとえば、仮にユーザが「仕事に取り掛かるときにジョンにメールするように私にリマインドしてください」と言うとした場合、「仕事」エンティティテキストは、ユーザが特定の住所を仕事場として割り当てるなどの追加情報なしに特定の場所を識別するために使用されることはできない。また、例えば、ユーザが「それについてもっと教えてください」と言うとした場合、「それ」エンティティテキストは、コンテンツの支配的なエンティティがコンピューティングデバイス120上で現在見られているなどの追加情報なしに特定のエンティティを識別するために使用されることはできない。いくつかの実施形態では、提案される音声ベースのアクションクエリシステム140および/または別のシステムは、例えば、様々な音響/言語、文法、および/またはアクションモデルに依存する音声ベースのクエリプロセッサを使用して、音声入力を処理するための補完的な機能性を含むことがある。しかしながら、他の実施形態では、補完的な機能性を使用されなくてもよい。

いくつかの実施形態では、セマンティックプロセッサモジュール127によって開始されるコンピュータベースのアクションは、セマンティックプロセッサモジュール127に利用可能なルールに依存してもよい。また、セマンティックプロセッサモジュール127によって開始されるコンピュータベースのアクションは、コンピューティングデバイス120にインストールされたアプリケーション126、および/またはコンピューティングデバイス120にインストールされたアプリケーション126のバージョンに依存してもよい。例えば、特定のコンピュータベースのアクションは、特定のアプリケーション126および/またはアプリケーション126の特定のバージョンによってのみ実行可能であってもよい。例えば、「電話する」アクションは、電話アプリケーションがアプリケーション126に含まれている場合にのみ実行可能である。

提案される音声ベースのアクションクエリシステム140は、いくつかの実施形態では、例えば、複数のユーザのコンピューティングデバイスから大量の要求を処理するのに適したソフトウェアを実行するサーバファームまたは高性能コンピュータのクラスタを使用して、クラウドインフラストラクチャを採用するクラウドベースのサービスとして実装することができる。提案される音声ベースのアクションクエリシステム140は、エンティティおよびアクションデータベース162などの1つまたは複数のデータベースに照会を行い、提案される音声ベースのアクションクエリを生成するための情報を探し出すことができる。提案される音声ベースのアクションクエリシステム140は、エンティティ決定モジュール142、アクション決定モジュール144、および提案される音声ベースのアクションクエリ生成モジュール145を含む。

提案される音声ベースのアクションクエリシステム140は、コンピューティングデバイス120上で最近アクセスされたコンテンツの表示(例えば、コンピューティングデバイス120によって現在表示されているコンテンツ)をコンピューティングデバイス120から受け取る。コンテンツは、アプリケーション126のうちの1つにおいてコンピューティングデバイス120上でアクセスされてもよい。アプリケーション126は、例えば、ウェブブラウザアプリケーション、パーソナルアシスタントアプリケーション、ビジネスレビューアプリケーション、ソーシャルネットワーキングアプリケーション、音楽アプリケーション、ビデオアプリケーション、および/または映画、テレビ番組、および他のメディアに関する情報を探索するためのインターフェースを提供するアプリケーションなど、コンピューティングデバイス120にインストールされ得る1つまたは複数の様々なアプリケーションを含むことができる。いくつかの実施形態では、コンテンツの表示は、コンピューティングデバイス120上のコンテンツの「ビューポート」に特有の表示を含むことができる。例えば、コンテンツのテキストおよびコンテンツのスクリーンショットは、コンピューティングデバイス120上に能動的に表示されるコンテンツの部分だけに提供されてもよい。いくつかの実施形態では、コンテンツの表示は、追加的におよび/または代替的に、コンピューティングデバイス120上に能動的に表示されないコンテンツの部分に対する表示を含むことができる。例えば、能動的に表示されないメタデータが提供されてもよく、および/または能動的に表示されないコンテンツの他の部分からのテキストが提供されてもよい。例えば、表示されていないが、スクロールアップまたはスクロールダウンによって表示されるであろうテキストを提供することができる。

エンティティ決定モジュール142は、コンテンツの指示に基づいて、コンテンツ内で参照される1つまたは複数のエンティティを決定する。エンティティは、例えば、人、関心のある場所、住所、電話番号などの1つに関連付けられてもよい。いくつかの実施形態では、エンティティを決定することは、コンテンツ内のテキストの位置、フォーマット、頻度および/または他の属性に基づいて、エンティティに関連するテキストを識別することを含む。いくつかの実施形態では、エンティティ決定モジュール142は、コンテンツ内の支配的なエンティティおよびコンテンツ内の1つまたは複数の追加の顕著なエンティティなど、複数のエンティティを識別することができる。

一例として、コンテンツの表示は、テキスト、メタデータ、画像、画像に適用されるタグ、および/またはコンピューティングデバイス上で直近に見られたコンテンツのスクリーンショットを含むことができ、エンティティ決定モジュール142は、そのような情報に基づいてコンテンツ内で参照されるエンティティを決定することができる。例えば、コンテンツの表示は、コンテンツ内のテキストおよびテキストの属性を含むことができ、エンティティ決定モジュール142は、コンテンツ内のテキストの位置、フォーマット、頻度、および/または他の属性に基づいて、コンテンツに関連する支配的なエンティティを決定することができる。本明細書で使用されるように、コンテンツ内の支配的なエンティティは、そのコンテンツの1つまたは複数の属性の分析に基づいてそのコンテンツにおいて最も一般的なコンテンツ内のエンティティを指す。例えば、映画のブレードランナーに関するコンテンツの場合、「ブレードランナー」というテキストは、他のテキストよりも大きなフォントで、他のテキストよりも顕著な位置に、および/または他のテキストより頻繁に現れることに基づいて、支配的なエンティティとして識別され得る。「ブレードランナー」というテキスト自体が支配的なエンティティとして利用されてもよく、またはエンティティ決定モジュール142が、テキストに基づいて、および知識グラフなどの1つまたは複数のデータベースを参照して、特定のエンティティを解決してもよい。

別の例として、コンテンツの表示は、コンテンツのURLまたは別の識別子を含むことができ、エンティティ決定モジュール142は、コンテンツで参照されるエンティティを決定するために識別子を利用することができる。例えば、エンティティ決定モジュール142は、コンテンツの識別子を、コンテンツ内で参照される1つまたは複数のエンティティにマッピングするデータベース(例えば、公開されたアクセス可能な文書など複数の文書のそれぞれについて支配的なエンティティおよび/または他のエンティティを定義するデータベース)にアクセスすることができる。また、例えば、エンティティ決定モジュール142は、識別子を利用してコンテンツを探し出してよく、コンテンツを直接分析して、コンテンツで参照されるエンティティを決定してもよい。例えば、識別子がURLである場合、エンティティ決定モジュール142は、URLにアクセスすることによって提供されるコンテンツに基づいてURLにアクセスし、エンティティを決定することができる。

コンテンツの表示に基づいてエンティティを決定するさらに別の例として、エンティティ決定モジュール142は、1つまたは複数の特定の特性を有するコンテンツのテキストに基づいてエンティティを決定することができる。例えば、エンティティ決定モジュール142は、フォーマット「XXX-XXX-XXXX」または「(XXX)XXX-XXX」に従うテキストを識別する1つまたは複数の正規表現に基づいてエンティティとして電話番号を決定することができる。また、例えば、エンティティ決定モジュール142は、アドレス(例えば、都市、州番号)のアドレスおよび/またはテキストとして識別するメタデータに関連付けられたテキストに基づいて、エンティティとしてアドレスを決定することができる。また、例えば、エンティティ決定モジュール142は、エンティティの「ホワイトリスト」に存在し、「関心のある場所」にマップされ、「有名人」にマップされることに基づいて、および/またはテキストの他の属性に基づいて、エンティティとして特定のテキストを決定してもよい。

アクション決定モジュール144は、エンティティ決定モジュール142によって決定されたエンティティ(または複数のエンティティ)に対して実行され得る1つまたは複数のコンピュータベースのアクションを決定する。いくつかの実施形態では、アクション決定モジュール144は、コンピュータベースのアクションがエンティティおよびアクションデータベース162などの1つまたは複数のデータベース内のエンティティにマッピングされることに基づいて、コンピュータベースのアクションを決定する。エンティティおよびアクションデータベース162は、エンティティに関連する1つまたは複数のコンピュータベースのアクションに対する複数のエンティティのそれぞれのマッピングを含む。アクションは、エンティティに直接マッピングされてもよく、および/またはエンティティのクラスとのマッピングを介してエンティティに間接的にマッピングされてもよい。例えば、電話番号をダイヤルするアクションは、複数の特定の電話番号のそれぞれにマッピングされてもよく、および/または一般に電話番号のクラスに関連付けられてもよい。また、例えば、映画を再生するアクションは、複数の映画、一般的な映画、および/またはコンピューティングデバイス120にインストールされたアプリケーションの1つを介してオンデマンド視聴が可能な映画のそれぞれにマッピングされ得る。

エンティティに対して複数のアクションが識別される実施形態では、アクション決定モジュール144は、例えば、エンティティへのアクションの関連の強さ、および/またはエンティティのクラス；一般的なアクションの履歴上の人気；コンテンツが生じたアプリケーションに対するアクションの履歴上の人気；アクションがコンピューティングデバイス120にインストールされた1つまたは複数のアプリケーション126を介して実行可能か否か；コンピューティングデバイス120にインストールされた1つまたは複数のアプリケーション126を介したアクションの実行の履歴上の人気；など、1つまたは複数の要因に基づいて、識別されたアクションを任意選択でランク付けおよび/またはフィルタリングすることができる。

例えば、エンティティおよびアクションデータベース162は、アクションとエンティティまたはエンティティクラスとの間のマッピングに対して、そのマッピングのための関連の強さを含むことができる。エンティティへのアクションの関連の強さは、任意選択で過去の音声検索クエリの分析に基づくことができる。例えば、ナビゲーションを提供するコンピュータベースのアクションは、分析された過去1,000回の音声検索クエリが一般に「[レストラン]にナビゲートする」形式に準拠する(「[レストラン]」はレストランのクラスのメンバーであるエンティティへの参照を示す)が、過去100回の音声検索クエリのみは一般に「[レストラン]に電話する」の形式に準拠する場合、電話のコンピュータベースのアクションよりもレストランのエンティティのクラスにより強く関連付けられ得る。

一般にコンピュータベースのアクションの履歴上の人気は、過去の音声検索クエリでコンピュータベースのアクションを開始する用語の出現頻度に基づくことができる。コンテンツが生じたアプリケーションに対するコンピュータベースのアクションの履歴上の人気は、アプリケーションを使用している間に発行された、および/またはアプリケーションを使用するしきい値時間内に発行された過去の音声検索クエリにおいてコンピュータベースのアクションを開始する用語の出現頻度に基づく。例えば、過去の音声検索クエリの分析は、ビジネスの消費者レビューを提供するアプリケーションの場合よりも、ウェブブラウザアプリケーションにとって電話のコンピュータベースのアクションがあまり一般的でないことを示すことができる。

いくつかの実施形態では、アクション決定モジュール144によって識別されるコンピュータベースのアクションは、音声クエリとして提供された場合にアクションの実行を開始するであろうアクション用語ではないアクションのコンピュータ識別子であってもよい。例えば、アクティブなナビゲーション方向を提供するアクションのコンピュータ識別子は、「ID_NAVIGATE」、「42」、および/または「AE5」などのアルファベットおよび/または数字の識別子であってもよい。

提案される音声ベースのアクションクエリ生成モジュール145は、アクション決定モジュール144によって決定されたコンピュータベースのアクションのうちの1つを実行するための1つまたは複数のアクション用語と、エンティティ決定モジュール142によって決定されたエンティティを参照する1つまたは複数のエンティティ用語とにそれぞれ基づいて、1つまたは複数の提案される音声ベースのアクションクエリを生成する。

いくつかの実施形態では、提案される音声ベースのアクションクエリ生成モジュール145は、コンピューティングデバイス120によって示される好ましい言語に基づいて、コンピュータベースのアクションのためにアクション用語を決定する。例えば、コンピュータベースアクションのコンピュータ識別子は、アクション決定モジュール144によって決定されてもよく、コンピューティングデバイス120が英語の好ましい言語を有する場合、第1の用語はアクション用語として識別されてもよく、第2の用語は、コンピューティングデバイス120がドイツ語の好ましい言語を有する場合、アクション用語として識別される。例えば、エンティティおよびアクションデータベース162および/または他のデータベースは、所定のコンピュータベースのアクションについて、そのアクションにマッピングされたアクション用語を含むことができる。各アクション用語は、さらに、そのアクション用語の好ましい言語にマッピングされてもよい。アクション決定モジュール144は、アクション用語のコンピュータベースのアクションへのマッピングを識別すること、およびアクション用語の好ましい言語へのマッピングをさらに識別することに基づいて、好ましい言語を考慮して、コンピュータベースのアクションのアクション用語を選択することができる。

提案される音声ベースのアクションクエリ生成モジュール145はさらに、識別されたエンティティを参照する1つまたは複数の用語を決定する。例えば、識別されたエンティティ自体が用語である場合、その用語が利用されてもよい。例えば、「レストランA」がエンティティである場合、「レストランA」をエンティティ用語として利用することができる。いくつかの実施形態では、エンティティの代名詞または他の汎用記述子を利用することができる。例えば、「レストランA」がエンティティである場合、提案される音声ベースのアクションクエリ生成モジュール145は、「それ」または「そこ」のエンティティ用語を決定することができる。また、例えば、有名な男性がエンティティである場合、提案される音声ベースのアクションクエリ生成モジュール145は、「he(彼)」または「him(彼に)」のエンティティ用語を決定することができる。選択された特定の汎用記述子は、エンティティおよび/またはエンティティのクラスに対する汎用記述子のマッピングに基づいて決定されてもよい。また、特定の汎用記述子は、アクション用語との文法的一貫性を提供するために任意選択でさらに選択されてもよい。例えば、エンティティ用語「そこ」は、「ナビゲート」のアクション用語に対して選択されてもよく、「それ」は、「について教えてほしい」のアクション用語に対して選択されてもよい。

いくつかの実施形態では、提案される音声ベースのアクションクエリ生成モジュール145は、コンピューティングデバイス120によって示される好ましい言語に基づいてエンティティ用語を決定する。たとえば、コンピューティングデバイス120が英語の好ましい言語を有する場合、第1の汎用記述子はエンティティ用語として識別され、コンピューティングデバイス120がドイツ語の好ましい言語を有する場合、第2のジェネリックディスクリプタはエンティティ用語として識別される。

提案される音声ベースのアクションクエリシステム140は、生成された1つまたは複数の提案される音声ベースのアクションクエリを、音声クエリアプリケーション122によって、音声ベースのクエリのための提案される音声ベースのアクションクエリとして、音声クエリアプリケーション122に提示するために提供する。複数の提案される音声ベースのアクションクエリが提供される実施形態では、複数の提案される音声ベースのアクションクエリが、例えば、アクション決定モジュール144に関して説明されたアクションのランク付けに基づいて、ランキング情報と共に任意選択で提供されてもよい。それらの実施形態のいくつかでは、コンピューティングデバイス120は、提供されたランキング情報に基づいて、提案される音声ベースのアクションクエリの表示順序を決定することができる。ランキング情報は、任意選択で、提案される音声ベースのアクションクエリが送信されるまたはデータパケットに含まれる順序であってもよい。

提供された提案される音声ベースのアクションクエリが、エンティティ(例えば、him(彼))の汎用記述子を含む場合、提案される音声ベースのアクションクエリシステム140は、提案される音声ベースのアクションクエリに、より特別にエンティティを識別するメタデータを任意選択で提供する。メタデータは、アクションを実行する際のエンティティのより特定の識別で汎用記述子を「置き換える」ために、コンピューティングデバイス120によって利用されてもよい。他の実施形態では、直近にアクセスされたコンテンツの分析に基づいて、エンティティのより具体的な識別をコンピューティングデバイス120で(例えば、セマンティックプロセッサモジュール127によって)実行することができる。

いくつかの実施形態では、提案される音声ベースのアクションクエリシステム140は、コンピューティングデバイス120からの音声ベースのクエリ入力指示を受け取ることに応答して、生成された1つまたは複数の提案される音声ベースのアクションクエリを音声クエリアプリケーション122に提供する。音声ベースのクエリ入力指示は、コンピューティングデバイス120を介したユーザの入力の受け取りを示し、コンピューティングデバイス120を介した音声ベースのクエリの提供を開始する。いくつかの実施形態では、音声ベースのクエリ入力指示は、コンピューティングデバイス120からのコンテンツの指示を受け取ること、および/またはコンテンツの指示と組み合わせて他の情報を受け取ることである。例えば、いくつかの実施形態では、コンピューティングデバイス120は、音声ベースのクエリの提供を開始するユーザの入力に応答してコンテンツの表示を提供するだけでよい。いくつかの実施形態では、音声ベースのクエリ入力指示は、コンテンツの指示とは別個に受け取られてもよい。例えば、いくつかの実施形態では、コンピューティングデバイス120は、コンテンツの表示を提供し、単に、ユーザからの任意の口頭入力を受け取らずに、音声入力指示を受信してから一定時間が経過した後に音声ベースのクエリ入力指示を提供することができる。

いくつかの実施形態では、提案される音声ベースのアクションクエリシステム140は、提案される音声ベースのアクションクエリを生成することに限定されない。例えば、提案される音声ベースのアクションクエリシステム140はまた、提出された音声ベースのアクションクエリを解析すること、提出された音声ベースのアクションクエリに対して適切なコンピュータベースのアクションを決定すること、送信された音声ベースのアクションクエリに対する決定されたコンピュータベースのアクションを実行するようにコンピューティングデバイス120の1つまたは複数のアプリケーションに命令すること、および/または提出された音声ベースのアクションクエリに対する1つまたは複数のコンピュータベースのアクションを実行することのすべてまたはいくつかの態様を処理することができる。提案される音声ベースのアクションクエリシステム140およびコンピューティングデバイス120は、図1では別個のコンポーネントとして示されているが、他の実施形態では、音声ベースのアクションクエリシステム140の1つまたは複数の態様は、コンピューティングデバイス120上に実装されてもよく、またはその逆であってもよい。

図2は、コンピューティングデバイス120上でアクセスされるコンテンツを考慮して、コンピューティングデバイス120を介して提示するための少なくとも1つの提案される音声ベースのアクションクエリ155を決定する例を示す。図2を参照すると、コンピューティングデバイス120からのコンテンツ131の指示が、エンティティ決定モジュール142に提供される。例えば、コンテンツ131の表示は、音声ベースのクエリの提供を開始するためにコンピューティングデバイス120を介してユーザが入力される直前に、コンピューティングデバイス120上で見られているコンテンツのテキストおよびテキストの属性を含むことができる。例えば、ユーザは、コンピューティングデバイス120のアプリケーションでコンテンツを見ていることがあり、ユーザは、そのアプリケーションがまだアクティブであり、コンテンツを表示している間に音声ベースのクエリの提供を開始するために入力を提供してもよく、コンテンツが入力に応答して提供されてもよい。別の例として、ユーザは、コンピューティングデバイス120の第1のアプリケーション上でコンテンツを見ていることがあり、コンピューティングデバイス120の第2のアプリケーション(またはオペレーティングシステム)によって、追加のコンテンツを表示させる(第1のアプリケーションのコンテンツに置き換えるか、第1のアプリケーションのコンテンツの「上」に提供する)音声ベースのクエリの提供を開始するための入力を提供でき、入力に応答して第1のアプリケーションによって最近表示されたコンテンツが提供されても良い。さらに別の例として、コンピューティングデバイス120は、音声ベースのクエリの提供を開始するためにユーザの入力を最初に要求することなく、現在見られているコンテンツの表示を提供することができる。

エンティティ決定モジュール142は、コンテンツ131の指示に基づいて、少なくとも1つのエンティティ151を決定する。例えば、エンティティ決定モジュール142は、コンテンツ内のテキストの位置、フォーマット、頻度、および/または他の属性に基づいて、コンテンツに関連する支配的なエンティティを決定してもよい。例えば、あるテキストは、コンテンツ内の他のテキストよりも大きなフォントで、コンテンツ内の他のテキストよりも顕著な位置に、コンテンツ内の他のテキストよりも頻繁に、コンテンツのタイトルに現れることに基づいて、支配的なエンティティとして識別され得る。

エンティティ決定モジュール142は、決定されたエンティティ151をアクション決定モジュール144に提供する。アクション決定モジュール144は、エンティティおよびアクションデータベース162内のエンティティ151にマッピングされる少なくとも1つのコンピュータベースのアクション152を決定する。アクション決定モジュール144は、エンティティ151のアクション152への直接マッピングに基づいて、またはエンティティ151のクラスへのアクション152のマッピング、およびエンティティ151のクラスのアクション152へのマッピングに基づいて、アクション152を決定することができる。

コンピューティングデバイス120からのアプリケーション情報132は、アクション決定モジュール144に提供されてもよい。いくつかの実施形態では、アクション決定モジュール144は、アプリケーション情報132に基づいてコンピュータベースのアクションをランク付けおよび/またはフィルタリングすることができる。例えば、アプリケーション情報132は、コンピューティングデバイスにインストールされた1つまたは複数のアプリケーション(例えば、アプリケーション126)および/またはコンピューティングデバイスにインストールされた1つまたは複数のアプリケーションのバージョン(例えば、アプリケーション126および/または122)を示すことができる。例えば、エンティティおよびアクションデータベース162は、複数のコンピュータベースのアクションのそれぞれについて、コンピュータベースのアクションが実行され得る(アプリケーション126および/または122に対する)1つまたは複数のアプリケーションおよび/またはアプリケーションのバージョンを定義するデータを含むことができる。アクション決定モジュール144は、そのようなデータを利用して、アプリケーション情報132に基づいてコンピューティングデバイス120と互換性のない1つまたは複数のコンピュータベースのアクションをフィルタリングすることができる。

別の例として、アプリケーション情報132は、どのアプリケーションがコンテンツ131の表示によって示されるコンテンツを生成していたかを示すことができる。エンティティおよびアクションデータベース162は、(例えば、アプリケーションを使用している間に発行された、および/またはアプリケーションの使用のしきい値期間内に発行された過去の音声検索クエリにおけるコンピュータベースのアクションを開始する用語の出現頻度に基づいて)コンテンツが生じたアプリケーションに関する1つまたは複数の候補コンピュータベースのアクションの履歴上の人気を含むことができる。アクション決定モジュール144は、このような履歴上の人気を利用して、アクション152を選択し、および/または他の選択されたアクションに対してアクション152をランク付けすることができる。

アクション決定モジュール144は、エンティティ151およびアクション152を、(任意選択で他の決定されたエンティティおよび/またはアクションと共に)提案される音声ベースのアクションクエリ生成モジュール145に提供する。提案される音声ベースのアクションクエリ生成モジュール145は、アクション151を実行するための1つまたは複数のアクション用語、およびエンティティ152を参照する1つまたは複数のエンティティ用語に基づいて、提案される音声ベースのアクションクエリ155を生成する。いくつかの実施形態では、コンピューティングデバイス120からの好ましい言語133を、提案される音声ベースのアクションクエリ生成モジュール145に提供することもできる。いくつかの実施形態では、提案される音声ベースのアクションクエリ生成モジュール145は、コンピュータベースのアクションのアクション用語および/またはエンティティ用語を、コンピューティングデバイス120によって示される好ましい言語に基づいて決定する。

提案される音声ベースのアクションクエリ生成モジュール145は、提案される音声ベースのアクションクエリ155をコンピューティングデバイス120に提供する。例えば、提案される音声ベースのアクションクエリ155は、1つまたは複数のアクション用語および1つまたは複数のエンティティ用語を含むテキスト文字列としてコンピューティングデバイス120に提供されてもよい。いくつかの実施形態では、提案される音声ベースのアクション生成モジュール145は、コンピューティングデバイス120からの音声ベースのクエリ入力指示を受け取ることに応答して、生成された1つまたは複数の提案される音声ベースのアクションクエリをコンピューティングデバイス120に提供する。それらの実施形態のいくつかでは、音声ベースのクエリ入力指示は、コンピューティングデバイス120からのコンテンツ131の表示を受け取ることおよび/またはコンテンツ131の表示と組み合わせた他の情報を受け取ることである。

いくつかの実施形態では、提案される音声ベースのアクションクエリ生成モジュール145は、注釈データに、提案される音声ベースのアクションクエリ155を提供する。注釈データは、提案される音声ベースのアクションクエリ155と共に表示されるデータであり、提案される音声ベースのアクションクエリ155を明確にするのに役立つが、提案されるクエリ自体を構成しない。例えば、提案される音声ベースのアクションクエリ155のエンティティ用語として代名詞が使用される場合、エンティティの画像および/またはエンティティのより特定のエイリアスが、(例えば、カッコ内で提供され、および/または位置的にオフセットされた)音声ベースのアクションクエリ155から視覚的な表示のために提供されてもよい。

図3は、コンピューティングデバイスにおいて少なくとも1つの提案される音声ベースのアクションクエリを受け取り、音声ベースのクエリの提供を開始するための入力に応答して提案される音声ベースのアクションクエリを提案として提供する例を示す。音声ベースのクエリ指示入力110が、音声アクションモジュール123で受け取られる。音声ベースのクエリ指示入力110は、例えば、ユーザがグラフィカルユーザインターフェースを介して音声クエリアイコンを選択すること、ユーザが音声ベースのクエリ(例えば、「OK コンピュータ」)を開始するフレーズを話すこと、ユーザがコンピューティングデバイス120のタッチセンシティブハードウェア要素を作動させる、またはコンピューティングデバイス120と通信する(例えば、機械的ボタン、容量性ボタン)、および/またはコンピューティングデバイス120のカメラまたは他のセンサを考慮してジェスチャを実行することを含むことができる。

音声アクションモジュール123は、音声ベースのクエリ開始入力110に応答して音声入力を監視し、要求音声ベースのアクションクエリコマンド135をインターフェースモジュール124に送信する。コマンド135に応答して、インターフェースモジュール124は、アプリケーション126のうちの1つを介して直近にアクセスされたコンテンツ131の表示、コンピューティングデバイス120の好ましい言語の表示、コンピューティングデバイス120の1つまたは複数のアプリケーション126に関連する情報、および/または音声ベースのクエリ入力表示、などの情報130を提案される音声ベースのアクションクエリシステム140に提供することができる。例えば、コンテンツ131の表示は、音声ベースのクエリ開始入力110の受け取りに関連して直近にアプリケーション126のうちの1つによって表示されたコンテンツであってもよい。

インターフェースモジュール124は、提案される音声ベースのアクションクエリシステム140から、提案される音声ベースのアクションクエリ155をさらに受け取る。提案される音声ベースのアクションクエリ155は、インターフェースモジュール124によって提供される情報130に応答しており、任意選択で、情報130の1つまたは複数の態様に基づいてもよい。インターフェースモジュール124は、提案される音声ベースのアクションクエリ155をレンダリング/同期化モジュール125に提供する。

音声アクションモジュール123は、提案される音声ベースのアクションクエリコマンド137をレンダリング/同期モジュール125に提供する。コマンド137に応答して、レンダリング/同期モジュール125は、提案される音声ベースのアクションクエリ155を、音声ベースのクエリ開始入力110によって開始された音声クエリの提案として提示する(例えば、表示する)。いくつかの実施形態では、音声アクションモジュール123は、提案される音声ベースのアクションクエリの必要性の指示が後に続く音声ベースのクエリ開始入力110に基づいて、コマンド137を提供する。これらの実施形態のいくつかでは、提案される音声ベースのアクションクエリの必要性の指示は、ユーザ入力が音声ベースのクエリを開始した後のしきい値時間内に、ユーザからの口頭入力がないことを含むことができる。例えば、これらの実施形態のバージョンでは、音声ベースのクエリを開始するユーザ入力の4秒(または他のしきい値時間)以内に口頭入力をユーザが提供しないことに応答して、提案される音声ベースのアクションクエリを提示することができる。いくつかの実施形態では、コマンド137は、提案される音声ベースのアクションクエリの必要性の他の表示に応答して、追加的および/または代替的に提供されてもよい。例えば、他の表示には、ユーザが話すことができる1つまたは複数のフレーズ(例えば、「私に何ができるかを教えてください」)、提案される音声ベースのアクションクエリを要求するために提供されるユーザインターフェース要素の選択、および/または音声ベースのクエリ開始入力110に続く少なくとも1つのしきい値雑音レベルを検出する(例えば、口頭入力を適切に処理するために環境が「騒がし過ぎる」ことを検出する)ことを含んでもよい。いくつかの実施形態では、レンダリング/同期化モジュール125は、コマンド137を受け取ることなく、音声クエリの提案として提案される音声ベースのアクションクエリを提示することができる。

図4は、コンピューティングデバイス上でアクセスされているコンテンツを考慮して、コンピューティングデバイスを介して提示するための少なくとも1つの提案される音声ベースのアクションクエリを決定する例示的な方法400を示すフローチャートである。便宜上、動作を実行するシステムを参照してフローチャートの動作を説明する。このシステムは、提案される音声ベースのアクションクエリシステム140のような、様々なコンピュータシステムの様々なコンポーネントを含むことができる。さらに、方法400の動作が特定の順序で示されているが、これは限定を意味していない。1つまたは複数の動作は、並べ替え、省略、または追加することができる。

ブロック402において、システムは、コンピューティングデバイス上で最近見られたコンテンツの表示を受け取る。例えば、コンテンツの表示は、コンピューティングデバイスによって現在表示されているコンテンツの、テキストおよびテキストの属性を含むことができる。いくつかの実施形態では、コンテンツの表示は、コンピューティングデバイスを介したユーザの入力に応答してコンピューティングデバイスによって提供され、音声ベースのクエリの提供を開始する。

ブロック404において、システムは、コンテンツの表示に基づいて、コンテンツ内で参照されたエンティティを決定する。例えば、コンテンツの表示がテキスト及びテキストの属性を含む場合、システムは、コンテンツ内のテキストの位置、フォーマット、頻度、および/または他の属性に基づいて、コンテンツに関連する支配的なエンティティを決定することができる。例えば、あるテキストは、コンテンツ内の他のテキストよりも大きなフォントで、コンテンツ内の他のテキストよりも顕著な位置に、コンテンツ内の他のテキストよりも頻繁に、コンテンツのタイトルに現れることに基づいて、支配的なエンティティとして識別されてもよい。

ブロック406において、システムは、エンティティにマッピングされ得るコンピュータベースのアクションを決定する。例えば、システムは、エンティティおよびアクションデータベース162内のエンティティにマッピングされる少なくとも1つのコンピュータベースのアクションを決定することができる。いくつかの実施形態では、システムは、例えば、エンティティへのアクションの関連の強さ、およびまたはエンティティのクラス；一般的なアクションの履歴上の人気；コンテンツが生じたアプリケーションに対するアクションの履歴上の人気；アクションがコンピューティングデバイス120にインストールされた1つまたは複数のアプリケーション126を介して実行可能か否か；コンピューティングデバイス120にインストールされた1つまたは複数のアプリケーション126を介したアクションの実行の履歴上の人気；など、1つまたは複数の要因に基づいて、コンピュータベースのアクションをランク付けおよび/またはフィルタリングすることができる。

ブロック408において、システムは、コンピュータベースのアクションにマッピングされたアクション用語と、エンティティにマッピングされたエンティティ用語とを含む提案される音声ベースのアクションクエリを生成する。いくつかの実施形態では、システムは、コンピューティングデバイスから受け取られた情報によって示される好ましい言語に基づいて、アクション用語および/またはエンティティ用語を決定する。

ブロック410において、システムは、音声クエリの提案として表示するための提案される音声ベースのアクションクエリを提供する。いくつかの実施形態では、システムは、コンピューティングデバイスから音声ベースのクエリ入力指示を受け取ることに応答して、音声クエリの提案として表示するために、生成された1つまたは複数の提案される音声ベースのアクションクエリをコンピューティングデバイスに提供する。いくつかの実施形態では、音声ベースのクエリ入力指示は、ブロック402でのコンテンツの表示を受け取ること、および/またはコンピューティングデバイスからの他の情報を受け取ることである。

図5は、コンピューティングデバイスにおいて少なくとも1つの提案される音声ベースのアクションクエリを受け取り、音声ベースのクエリの提供を開始するための入力に応答して提案される音声ベースのアクションクエリを提案として提供する例示的な方法を示す。便宜上、動作を実行するシステムを参照してフローチャートの動作を説明する。このシステムは、コンピューティングデバイス120の音声クエリアプリケーション122のような、様々なコンピュータシステムの様々なコンポーネントを含むことができる。さらに、方法500の動作が特定の順序で示されているが、これは限定を意味するものではない。1つまたは複数の操作は、並べ替え、省略、または追加することができる。

ブロック502において、システムは、音声ベースのクエリの提供を開始するための入力を受け取る。入力は、例えば、ユーザがグラフィカルユーザインターフェースを介して音声クエリアイコンを選択すること、ユーザが音声ベースのクエリを開始するフレーズ(例えば、「OK コンピュータ」)を話すこと、ユーザがタッチセンシティブハードウェア要素を作動させること、および/またはジェスチャを実行することを含むことができる。

ブロック504において、システムは、ブロック502において、入力に関連して直近に表示されたコンテンツを識別する。例えば、システムは、ブロック502で入力が受け取られたときまたは直前に、コンテンツまたはテキストの識別子、メタデータ、画像、画像に適用されるタグ、および/またはコンピューティングデバイスによって表示されるコンテンツのスクリーンショットを提供することができる。

ブロック506において、システムは、ブロック504で識別されたコンテンツの表示を提供する。例えば、システムは、提案される音声ベースのアクションクエリシステム140にコンテンツの表示を提供することができる。

ブロック508において、システムは、ブロック506の表示に基づき、かつアクション期間およびエンティティ期間を含む提案される音声ベースのアクションクエリを受け取る。例えば、システムは、ブロック506において、コンテンツの表示(および任意選択で他の情報)の提供に応答して、音声ベースのアクションクエリシステム140から提案される音声ベースのアクションクエリを受け取ることができる。

ブロック518において、システムは、音声入力がしきい値時間内に受け取られたかどうかを判定する。答えが「はい」である場合、システムはブロック520に進み、受け取った音声入力に基づいてコンピュータベースの動作を実行する。答えが「いいえ」である場合、システムはステップ510に進み、提案される音声ベースのアクションクエリを音声ベースのクエリの提案として提供する。

ステップ512において、システムは、提案される音声ベースのアクションクエリが選択されたかどうかを判定する。答えが「はい」である場合、システムはブロック514に進み、提案される音声ベースのアクションクエリに基づいてコンピュータベースのアクションを実行する。回答が「いいえ」である場合、システムはブロック516に進み、さらなるアクションを実行する。例えば、ユーザが提案される音声ベースのアクションクエリをディスプレイから除去するための入力を提供する場合、答えは「いいえ」であり、システムはブロック516で提供された入力に応答する。

図6Aは、コンピューティングデバイスのアプリケーションに表示されるコンテンツを示す例示的なグラフィカルユーザインターフェース680Aを示す。例えば、グラフィカルユーザインターフェース680Aは、携帯電話コンピューティングデバイス上に表示されてもよい。コンテンツは、情報を提供し、レストランについてレビューするアプリケーションなど、コンピューティングデバイスのアプリケーションによってグラフィカルユーザインターフェース680Aに表示される。特定のコンテンツが、架空のレストランである「Up and Down Burger Bar」の情報とレビューに焦点を当てる。グラフィカルユーザインターフェース680Aはまた、グラフィカルインターフェース要素681、682、および683を含み、グラフィカルインターフェース要素681、682、および683は、作動されると、それぞれ1つまたは複数のアクションが実行され得る。付加的な及び/又は代替的なグラフィカル及び/又は他の(例えば、機械的な)インターフェース要素が設けられてもよい。

図6Bは、図6Aのコンテンツに基づいて生成された提案される音声ベースのアクションクエリ685A〜Cを表示するための例示的なグラフィカルユーザインターフェース680Bを示す。図6Bは、図6Aのディスプレイとともに提供され、ユーザが音声ベースのクエリ開始入力を提供することの一例を示す図である。音声ベースのクエリ開始入力は、例えば、1つまたは複数の用語を話すこと、またはインターフェース要素を選択すること(例えば、特定の方法で要素681〜683の1つまたは複数を作動させること、または機械的インターフェース要素を作動させることなど)であってもよい。音声ベースのクエリ開始入力を提供することにより、音声クエリインターフェース684が図6Aのコンテンツとともに表示された。音声クエリインターフェース684は、音声クエリを示すためにマイクロホンのアイコンを含み、コンピューティングデバイスがユーザからの口頭入力を待っていることをユーザに示すために、テキスト「待機中...」をも含む。提案される音声ベースのアクションクエリ685A〜Cは、ユーザによって選択(例えば、「タップ」または口頭)され得る個々の「カード」として音声クエリインターフェース684の下に表示される。提案される音声ベースのアクションクエリ685A〜Cは、図6Aのコンテンツに基づき、例えば、図2および／または図4の提案される音声ベースのアクションクエリシステム140に関して本明細書で説明されるように決定され得る。例えば、図6Aのスクリーンショットおよび/またはテキストは、コンテンツの表示として提供されてよく、提案される音声ベースのアクションクエリ685A〜Cが応答で受け取られる。「そこにナビゲートしてください」と話すこと、または提案される音声ベースのアクションクエリ685Aをタップすることが「Up and Down Burger Bar」へのナビゲーション指示を提供することのコンピュータベースのアクションをもたらすであろう表示をユーザに提供するために、提案される音声ベースのアクションクエリ685Aが注釈の「[Up and Down Burger Bar]」とともに提供されることに留意する。

図6Aのコンテンツの大部分が図6Bにまだ表示され、他のコンテンツが音声クエリインターフェース684および音声ベースのアクションクエリ685A〜Cの下に「隠され」ている。いくつかの実施形態では、音声クエリインターフェース684および/または音声ベースのアクションクエリ685A〜Cのうちの1つまたは複数は、図6Bにおいて「隠されている」コンテンツを見ることを可能にするために少なくとも部分的に透過的であってもよい。

本明細書で説明するように、いくつかの実施形態では、提案される音声ベースのアクションクエリ685A〜Cは、音声ベースのクエリの開始入力に続く提案される音声ベースのアクションクエリの必要性を特定するまで、グラフィカルユーザインターフェース680Bに表示されていないことがある。例えば、音声クエリインターフェース684は、提案される音声ベースのアクションクエリ685A〜Cなしに、最初に表示されていてもよく、提案される音声ベースのアクションクエリ685A〜Cが、音声ベースのクエリを開始するユーザ入力に続いて時間しきい値内でユーザからの任意の口頭入力がないことを決定するときのみ表示される。また、例えば、音声クエリインターフェース684は、提案される音声ベースのアクションクエリ685A〜Cなしに、最初に表示されていてもよく、提案される音声ベースのアクションクエリ685A〜Cが、提案を要求する特定の口頭入力を受け取るとき、および／または周囲の雑音レベルが受け取りおよび正確な口頭入力の解析のためのしきい値の雑音レベルより大きいことを決定するときのみ表示される。

図6Cは、図6Aのコンテンツに基づいて生成された、提案される音声ベースのアクションクエリ「そこにナビゲートしてください」、「そこを予約してください」、および「それについてもっと教えてください」を表示する例示的なグラフィカルユーザインターフェース680Cを示す。図6Cの提案される音声ベースのアクションクエリは、図6Aのコンテンツに基づいてカード687に表示され、例えば、図2および/または図4の提案される音声ベースのアクションクエリシステム140に関して本明細書で説明されるように決定されてもよい。例えば、図6Aのスクリーンショットおよび/またはテキストは、コンテンツの表示、および応答して受け取られる提案される音声ベースのアクションクエリとして提供されていてもよい。カード687(および任意選択で他の非表示カード)が特に図6Aのコンテンツ(図6Cに部分的に表示されたままである)に適合されることを示す(例えば、「ON SCREEN：」というフレーズに基づいて)インターフェース要素686に、カード687が表示される。

図6Cは、図6Aのディスプレイとともに提供され、ユーザが(音声ベースのクエリ開始入力を必ずしも提供せずに)画面上のコンテンツに関連する提案される音声ベースのクエリ提案の要求を提供することの一例を示す図である。例えば、提案される音声ベースのクエリ提案に対する要求は、グラフィカルインターフェース要素682に「タッチする」こと、および「スワイプアップする」こと、および/または1つまたは複数の用語を話すことであり得る。提案される音声ベースのクエリの提案に対する要求を提供することにより、インターフェース要素686およびカード687が図6Aのコンテンツの一部の上に表示された。図6Cの提案される音声ベースのアクションクエリの1つの選択(「タップ」または口頭による(任意選択で音声ベースのクエリ開始入力の後に))により、コンピューティングデバイスが選択された音声ベースのアクションクエリに基づくコンピュータベースのアクションの実行を開始する。

図6Aのコンテンツの大部分が図6Cに表示されたままであり、他のコンテンツがインターフェース要素686およびカード687の下に「隠され」ている。いくつかの実施形態では、インターフェース要素686および/またはカード687は、図6Cにおいて「隠されている」コンテンツを見ることができるように、少なくとも部分的に透明であってよい。

図7Aは、コンピューティングデバイスのアプリケーションに表示されるコンテンツを示す例示的なグラフィカルユーザインターフェース780Aを示す。例えば、グラフィカルユーザインターフェース780Aは、携帯電話コンピューティングデバイスのインスタントメッセージアプリケーションに表示されてもよい。特定のコンテンツは、携帯電話のユーザと別のユーザである「ボブ」との間の会話である。Bobは、彼が夕食のためにUp and Down Burger Barに向かおうとしているかどうかをユーザに尋ねた。グラフィカルユーザインターフェース780Aはまた、グラフィカルインターフェース要素681,682および683を含み、グラフィカルインターフェース要素681,682、および683は、作動されると、1つまたは複数のアクションが実行されるようにすることができる。

図7Bは、図7Aのコンテンツに基づいて生成された提案される音声ベースのアクションクエリ785Aおよび785Bを表示するための例示的なグラフィカルユーザインターフェース780Bを示す。図7Bは、図7Aのディスプレイとともに提供され、ユーザが音声ベースのクエリ開始入力を提供することの一例を示す図である。音声ベースのクエリ開始入力は、例えば、1つまたは複数の用語を話すこと、またはインターフェース要素を選択すること(例えば、ある方法で要素681〜683の1つまたは複数を作動させること、または機械的インターフェース要素を作動させることなど)であってもよい。音声ベースのクエリ開始入力を提供することにより、音声クエリインターフェース784が図7Aのコンテンツと共に表示されている。音声クエリインターフェース784は、音声クエリを示すためのマイクロホンのアイコンを含み、コンピューティングデバイスがユーザからの口頭入力を待っていることをユーザに示すためのテキスト「待機中...」も含む。提案される音声ベースのアクションクエリ785Aおよび785Bは、音声クエリインターフェース784の下に、ユーザによって(例えば、「タップ」または口述することにより)選択され得る個々の「カード」として表示される。提案される音声ベースのアクションクエリ785Aおよび785Bは、図7のコンテンツに基づき、例えば、図2および／または図4の提案される音声ベースのアクションクエリシステム140に関して本明細書で説明されるように決定され得る。例えば、図7Aのスクリーンショットおよび/またはテキストは、コンテンツの表示および応答して受け取られる提案される音声ベースのアクションクエリ785Aおよび785Bとして提供されてもよい。提案される音声ベースのアクションクエリ785Aは、予約を行うための提案される時間「午後7時」とともに提供されることに留意されたい。提案される時間は、図7Aのコンテキスト(「夕食」)、過去のユーザの予約履歴、および/または、口頭入力が所望の時間に「Up and Down Burger Bar」の予約をするために利用され得ることの表示をユーザに任意に提供することに基づいて、決定されてもよい。

図8は、本明細書に記載される技術の1つまたは複数の態様を実行するために任意選択で利用され得る例示的なコンピューティングデバイス810のブロック図である。いくつかの実施形態では、コンピューティングデバイス120および/または提案される音声ベースのアクションクエリシステム140は、例示的なコンピューティングデバイス810の1つまたは複数のコンポーネントを備えることができる。

コンピューティングデバイス810は、典型的には、バスサブシステム812を介して複数の周辺デバイスと通信する少なくとも1つのプロセッサ814を含む。これらの周辺装置は、例えば、メモリサブシステム825およびファイル記憶サブシステム826、ユーザインターフェース出力装置820、ユーザインターフェース入力装置822、およびネットワークインターフェースサブシステム816を含むストレージサブシステム824を含むことができる。入力デバイスおよび出力デバイスは、ユーザがコンピューティングデバイス810と対話することを可能にする。ネットワークインターフェースサブシステム816は、外部ネットワークへのインターフェースを提供し、他のコンピューティングデバイス内の対応するインターフェースデバイスに結合される。

ユーザインターフェース入力装置822は、キーボード、マウス、トラックボール、タッチパッド、またはグラフィックタブレットなどのポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システムなどのオーディオ入力デバイス、マイクロホン、および/または他のタイプの入力装置を含むことができる。一般に、「入力装置」という用語の使用は、コンピューティング装置810または通信ネットワーク上に情報を入力するためのすべての可能なタイプの装置および方法を含むことが意図されている。

ユーザインターフェース出力装置820は、ディスプレイサブシステム、プリンタ、ファックス装置、またはオーディオ出力装置などの非視覚的ディスプレイを含むことができる。ディスプレイサブシステムは、陰極線管(CRT)、液晶ディスプレイ(LCD)などのフラットパネル装置、投影装置、または可視画像を生成するための他の何らかの機構を含むことができる。ディスプレイサブシステムはまた、オーディオ出力装置のような非視覚的表示を提供してもよい。一般に、「出力デバイス」という用語の使用は、コンピューティングデバイス810からユーザに、または別のマシンまたはコンピューティングデバイスに、情報を出力するためのすべての可能なタイプのデバイスおよび方法を含むことを意図している。

記憶サブシステム824は、本明細書に記載されたモジュールの一部または全部の機能を提供するプログラミングおよびデータ構成を記憶する。例えば、記憶サブシステム824は、図3および図4の方法の選択された態様を実行するロジックを含むことができる。

これらのソフトウェアモジュールは、一般にプロセッサ814単独で、または他のプロセッサと組み合わせて実行される。記憶サブシステム824で使用されるメモリ825は、プログラム実行中に命令およびデータを記憶するためのメインランダムアクセスメモリ(RAM)830および固定命令が記憶される読み出し専用メモリ(ROM)832を含む複数のメモリを含むことができる。ファイル記憶サブシステム826は、プログラムおよびデータファイルのための永続的ストレージを提供することができ、ハードディスクドライブ、関連するリムーバブルメディアと共にフロッピーディスクドライブ、CD-ROMドライブ、光学ドライブ、またはリムーバブルメディアカートリッジを含むことができる。特定の実施形態の機能を実装するモジュールは、記憶サブシステム824のファイル記憶サブシステム826、またはプロセッサ814がアクセス可能な他のマシンに格納することができる。

バスサブシステム812は、コンピューティングデバイス810の様々なコンポーネントおよびサブシステムが意図したとおりに互いに通信できるようにするためのメカニズムを提供する。バスサブシステム812は、単一のバスとして概略的に示されているが、バスサブシステムの代替的な実施形態は、複数のバスを使用することができる。

コンピューティングデバイス810は、ワークステーション、サーバ、コンピューティングクラスタ、ブレードサーバ、サーバファーム、または任意の他のデータ処理システムまたはコンピューティングデバイスを含む様々なタイプであってもよい。コンピュータおよびネットワークの刻々と変化する性質のために、図8に示すコンピューティングデバイス810の説明は、いくつかの実施形態を説明する目的のための特定の例としてのみ意図されている。図8に示すコンピューティングデバイスより多くの、またはより少ないコンポーネントを有するコンピューティングデバイス810の多くの他の構成が可能である。

本明細書に記載されたシステムがユーザに関する個人情報を収集するか、または個人情報を使用することができる状況では、ユーザは、プログラムまたは機能でユーザ情報(例えば、ユーザの社会的ネットワーク、社会的行動や活動、職業、ユーザの嗜好、またはユーザの現在の地理的位置)を収集するかどうかを制御するための、またはユーザにより関連性の高いコンテンツサーバからコンテンツを受け取るかどうか、および/またはユーザにより関連性の高いコンテンツをどのように受け取るかを制御するための、機会を提供され得る。また、特定のデータは、個人識別可能な情報が削除されるように、格納または使用される前に1つまたは複数の方法で処理され得る。例えば、ユーザの識別情報は、ユーザに対して個人識別可能な情報を決定することができないように処理され得、または地理的位置情報が得られる場合(例えば、都市、郵便番号、または州レベルで)に、ユーザの地理的位置は一般化することができ、ユーザの特定の地理的位置を決定することができない。したがって、ユーザは、ユーザについての情報の収集方法および/または使用方法を制御することができる。

いくつかの実施形態を本明細書に記載し説明してきたが、本明細書に記載した機能を実行するための、および/または、結果および/または利点を得るための様々な手段および/または構造を利用でき、そのような変形および/または修正の各々は、本明細書に記載されている実施形態の範囲内にあるとみなされる。より一般的には、本明細書に記載されるすべてのパラメータ、寸法、材料、および構成は例示的なものであり、実際のパラメータ、寸法、材料および/または構成は、その教示が使用される特定の用途または複数の用途に依存する。当業者は、本明細書に記載された特定の実施形態に多くの等価物を認識するか、または日常的な実験のみを使用して確認することができるであろう。したがって、前述の実施形態は単なる例示として提示され、添付の特許請求の範囲およびその等価物の範囲内で、具体的に記載および請求される以外の実施形態が実施され得ることが理解されるべきである。本開示の実施形態は、本明細書に記載される個々の特徴、システム、物品、材料、キット、および/または方法を対象とする。さらに、そのような特徴、システム、物品、材料、キット、および/または方法が相互に矛盾しない場合、そのような特徴、システム、物品、材料、キット、および/または方法の2つ以上の任意の組合せは、本開示の範囲内である。

１０１ネットワーク
１２０コンピューティングデバイス
１２２音声クエリアプリケーション
１２３音声アクションモジュール
１２４インターフェースモジュール
１２５レンダリング/同期モジュール
１２７セマンティックプロセッサモジュール
１４０提案される音声ベースのアクションクエリシステム
１４２エンティティ決定モジュール
１４４アクション決定モジュール
１４５提案される音声ベースのアクションクエリ生成モジュール
１６２エンティティおよびアクションデータベース

Claims

マイクロホン、ディスプレイ、およびプロセッサを備えるクライアントデバイスを具備するシステムであって、前記プロセッサが命令を実行して、
特定のユーザ開始のユーザインターフェース入力を受け取ることに応答して、前記マイクロホンを介して口頭入力のために監視することと、
前記特定のユーザ開始のユーザインターフェース入力を受け取ることに関連した、直近にコンピューティングデバイスによって表示されたコンテンツを識別することと、
前記コンテンツの表示を提供することと、
前記コンテンツの前記表示に基づき、かつ少なくとも1つのアクション用語および少なくとも1つのエンティティ用語を含む、提案される音声ベースのアクションクエリを受け取ることであって、前記エンティティ用語が前記コンテンツのエンティティを参照し、前記アクション用語が前記エンティティにマップされ、コンピュータベースのアクションの実行を開始する、ことと、
前記特定のユーザ開始のユーザインターフェース入力を受け取ることに関連した、しきい値時間内に前記マイクロホンを介してユーザから口頭入力を受け取らなかったと決定することと、
前記しきい値時間内に口頭入力を受け取らなかったと決定することに応答して、前記音声ベースのクエリのための提案として、前記提案される音声ベースのアクションクエリを提供することと
を行うことを特徴とするシステム。
前記クライアントデバイスと通信するサーバであって、命令を実行して
前記コンテンツの前記表示を、前記クライアントデバイスから受け取ることと、
前記コンテンツ内で参照されるエンティティを、前記コンテンツの前記表示に基づいて決定することと、
1つまたは複数の電子データベース内の前記エンティティにマッピングされたコンピュータベースのアクションを決定することと、
前記提案される音声ベースのアクションクエリを生成することと、
前記クライアントデバイスに前記提案される音声ベースのアクションクエリを提供することとを行うサーバプロセッサを備える、サーバをさらに具備することを特徴とする請求項1に記載のシステム。
コンピューティングデバイス上で最近見られたコンテンツの表示を受け取るステップと、
前記コンテンツ内で参照されるエンティティを、前記コンテンツの前記表示に基づいて決定するステップと、
1つまたは複数の電子データベース内の前記エンティティにマッピングされたコンピュータベースのアクションを決定するステップと、
前記コンピュータベースのアクションの実行を開始する少なくとも1つのアクション用語を含み、かつ前記エンティティに基づいて選択された少なくとも1つのエンティティ用語を含む提案される音声ベースのアクションクエリを生成するステップと、
音声ベースのクエリ入力表示を受け取るステップであって、前記音声ベースのクエリ入力表示が、前記コンピューティングデバイスを介してユーザの入力の受け取りを示し、前記ユーザの前記入力が前記コンピューティングデバイスのマイクロホンを介して音声ベースのクエリの提供を開始するためのユーザインターフェース入力である、ステップと、
前記音声ベースのクエリ入力表示を受け取ることに応答して、前記提案される音声ベースのアクションクエリを提供するステップであって、前記提案される音声ベースのアクションクエリが、前記音声ベースのクエリのための提案として前記コンピューティングデバイスによって表示されるために提供される、ステップと
を有することを特徴とするコンピュータによって実施される方法。
提案される音声ベースのアクションクエリの必要性の表示を決定するステップと、
提案される音声ベースのアクションクエリの前記必要性の前記表示を決定することに基づいて、前記提案として表示のために前記提案される音声ベースのアクションクエリを提供するステップと
をさらに有することを特徴とする請求項３に記載の方法。
提案される音声ベースのアクションクエリの前記必要性の前記表示を決定するステップが、
前記音声ベースのクエリの提供を開始するために、前記ユーザの前記入力からしきい値時間内に前記コンピューティングデバイスにおいて前記ユーザから口頭入力を受け取らないことに基づいて、提案される音声ベースのアクションクエリの前記必要性の前記表示を決定するステップを有することを特徴とする請求項４に記載の方法。
提案される音声ベースのアクションクエリの前記必要性の前記表示を決定するステップが、
前記音声ベースのクエリの提供を開始するために、前記ユーザの前記入力に続いて、前記コンピューティングデバイスによって少なくともしきい値雑音レベルを検出することに基づいて、提案される音声ベースのアクションクエリの前記必要性の前記表示を決定するステップを有することを特徴とする請求項４に記載の方法。
前記コンテンツの前記表示を受け取るステップが、前記コンテンツの用語と前記コンテンツ内の各用語の表示属性とを受け取るステップを有し、
前記コンテンツ内で参照される前記エンティティを決定するステップが、前記用語のうちの少なくとも1つの用語と前記コンテンツ内の該用語の表示属性とに基づいて、前記エンティティを決定するステップを有することを特徴とする請求項３に記載の方法。
前記エンティティにマッピングされた前記コンピュータベースのアクションを決定するステップが、前記エンティティのクラスを決定するステップと、前記クラスへの前記コンピュータベースのアクションのマッピングを識別するステップとを有することを特徴とする請求項３に記載の方法。
前記提案される音声ベースのアクションクエリを生成するステップが、前記エンティティにマッピングされた汎用記述子を決定するステップと、前記少なくとも1つのエンティティ用語として、前記汎用記述子を使用するステップとを有することを特徴とする請求項３に記載の方法。
前記汎用記述子が、前記エンティティにマッピングされる代名詞であることを特徴とする請求項９に記載の方法。
前記エンティティの画像を識別するステップと、
前記提案される音声ベースのアクションクエリのための注釈として表示するために前記コンピューティングデバイスに前記エンティティの前記画像を提供するステップと
をさらに有することを特徴とする請求項９に記載の方法。
前記コンピューティングデバイスの好ましい言語の表示を受け取るステップをさらに有し、
前記提案される音声ベースのアクションクエリを生成するステップが、前記コンピュータベースのアクションへの前記アクション用語のマッピングに基づいて、かつ前記好ましい言語への前記アクション用語のマッピングに基づいて、前記アクション用語を選択するステップを有することを特徴とする請求項３に記載の方法。
前記提案される音声ベースのアクションクエリを生成するステップが、前記好ましい言語に基づいて前記エンティティ用語を選択するステップを有することを特徴とする請求項１２に記載の方法。
アプリケーション情報を受け取るステップであって、前記アプリケーション情報が、前記コンピューティングデバイスにインストールされたアプリケーション、前記コンピューティングデバイスにインストールされた該アプリケーションのバージョンのうちの少なくとも1つを示す、ステップをさらに有し、
前記コンピュータベースのアクションを決定するステップが、前記コンピューティングデバイスにインストールされた前記アプリケーション、前記コンピューティングデバイスにインストールされた該アプリケーションの前記バージョンのうちの少なくとも1つへの前記コンピュータベースのアクションのマッピングに基づいて、前記コンピュータベースのアクションを選択するステップを有することを特徴とする請求項３に記載の方法。
前記コンテンツが生成されたアプリケーションの表示を受け取るステップをさらに有し、
前記コンピュータベースのアクションを決定するステップが、前記コンテンツが生成された前記アプリケーションの前記表示に基づいて、前記コンピュータベースのアクションを選択するステップを有することを特徴とする請求項３に記載の方法。
前記コンピューティングデバイスにおける前記提案される音声ベースのアクションクエリの選択が、前記コンピューティングデバイスの第1のアプリケーションに前記コンピュータベースのアクションの少なくとも1つの態様を実行させ、前記方法が、
前記少なくとも1つの電子データベース内の前記エンティティにマッピングされた追加のコンピュータベースのアクションを決定するステップと、
前記追加のコンピュータベースのアクションの実行を開始する少なくとも1つの追加のアクション用語を含み、かつ前記少なくとも1つのエンティティ用語を含む追加の提案される音声ベースのアクションクエリを生成するステップと、
音声ベースのクエリの表示を受け取ることに応答して、前記コンピューティングデバイスに前記追加の提案される音声ベースのアクションクエリを提供するステップであって、前記追加の提案される音声ベースのアクションクエリが、前記音声ベースのクエリのための追加の提案として表示のために前記コンピューティングデバイスに提供される、ステップとをさらに有し、
前記コンピューティングデバイスにおける前記提案される音声ベースのアクションクエリの選択が、前記コンピューティングデバイスの第2のアプリケーションに、前記追加のコンピュータベースのアクションの少なくとも1つの態様を実行させることを特徴とする請求項３に記載の方法。
前記コンピューティングデバイス上で見られた最近の前記コンテンツが、前記コンピューティングデバイスを介して前記音声ベースのクエリの提供を開始するために、前記コンピューティングデバイスを介して前記ユーザの前記入力に関連して直近で見られたコンテンツであることを特徴とする請求項３に記載の方法。
前記コンテンツの前記表示が、前記コンピューティングデバイスを介して前記音声ベースのクエリの前記提供を開始するために、前記コンピューティングデバイスを介して前記ユーザの前記入力に応答して前記コンピューティングデバイスによって提供されることを特徴とする請求項１７に記載の方法。
前記コンピューティングデバイス上で最近見られた前記コンテンツが、前記コンピューティングデバイスのアプリケーション内で直近に見られたコンテンツであることを特徴とする請求項３に記載の方法。
前記コンピューティングデバイスの前記アプリケーション内で直近に見られた前記コンテンツが、前記コンピューティングデバイスによって現在表示されているコンテンツであることを特徴とする請求項１９に記載の方法。
コンピューティングデバイスを介して音声ベースのクエリの提供を開始するために、前記コンピューティングデバイスにおいて、入力を受け取るステップと、
前記入力を受け取ることに関連した、直近に前記コンピューティングデバイスによって表示されたコンテンツを、前記コンピューティングデバイスによって、識別するステップと、
前記コンテンツの表示を提供するステップと、
前記コンテンツの前記表示に基づき、かつ少なくとも1つのアクション用語および少なくとも1つのエンティティ用語を含む提案される音声ベースのアクションクエリを受け取るステップであって、前記エンティティ用語が前記コンテンツのエンティティを参照し、前記アクション用語が前記エンティティにマッピングされるとともにコンピュータベースのアクションの実行を開始する、ステップと、
前記入力を受け取ることに関連した、しきい値時間内にユーザから口頭入力が受け取らなかったと決定することに応答して、前記音声ベースのクエリのための提案として前記提案される音声ベースのアクションクエリを提供するステップと
を有することを特徴とする方法。
前記コンテンツの前記表示を用いて、前記コンピューティングデバイスの好ましい言語の表示を提供するステップをさらに有し、
前記提案される音声ベースのアクションクエリが、前記好ましい言語の前記表示を提供することに応答して、前記コンピューティングデバイスの前記好ましい言語で受け取られることを特徴とする請求項２１に記載の方法。
前記提案される音声ベースのアクションクエリの選択を識別するステップと、
前記提案される音声ベースのアクションクエリの前記選択を識別することに基づいて、前記コンピュータベースのアクションを実行するステップと
をさらに有することを特徴とする請求項２１に記載の方法。