JP7311653B2

JP7311653B2 - ネットワークにおけるデジタルコンテンツの音声ベースの検索

Info

Publication number: JP7311653B2
Application number: JP2022014861A
Authority: JP
Inventors: マソード・ログマニ; アンシュル・コタリ; アナンス・デビュラパリ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-05-07
Filing date: 2022-02-02
Publication date: 2023-07-19
Anticipated expiration: 2039-04-08
Also published as: US20200342856A1; KR20220116361A; KR20200130400A; EP3685280A1; CN117150079A; JP2021521525A; US10733984B2; WO2019217018A1; JP2022070886A; US11776536B2; US20240062749A1; JP7021368B2; KR102433255B1; CN111279333B; CN111279333A; US20190341028A1; KR102619568B1

Description

関連出願の相互参照
本出願は、2018年5月7日に出願した「MULTI-MODAL INTERFACE IN A VOICE-ACTIVATED NETWORK」と題する米国非仮特許出願第15/973,447号の優先権を主張するものであり、その全体が参照により本明細書に組み込まれる。

コンピューティングデバイスが、ネットワーク化クライアントデバイスにデジタルコンテンツを提供することができる。提供されたデジタルコンテンツ内の具体的な位置または内容を見つけるためには過剰なネットワーク送信が必要とされ得る。加えて、音声ベースのインタフェースがデジタルコンテンツ内の具体的な位置に移動することが可能でないことがある結果として、デジタルコンテンツのエンティティがネットワーククライアントデバイスに送信されるので、ネットワーク資源が浪費され得る。

本開示の少なくとも1つの態様によれば、音声作動システムにおいてデジタルコンポーネントを制御するシステムがデータ処理システムを含むことができる。データ処理システムは、1つまたは複数のプロセッサおよびメモリを含むことができる。データ処理システムは、自然言語プロセッサ(「NLP」)コンポーネント、アノテーションコンポーネントおよび構文解析コンポーネントを実行できる。自然言語プロセッサコンポーネントは、クライアントコンピューティングデバイスにおいてセンサによって検出される第1の入力オーディオ信号を受信できる。自然言語プロセッサコンポーネントは、第1の入力オーディオ信号を構文解析して、第1の入力オーディオ信号中に第1のデジタルコンポーネント要求を識別できる。アノテーションコンポーネントは、第1のデジタルコンポーネント中に認識される発語に少なくとも基づいて第1のデジタルコンポーネントの第1のアノテーションのセットを生成できる。構文解析コンポーネントは、少なくとも第1のアノテーションのセットに基づいて複数のブレークポイントを識別できる。自然言語プロセッサコンポーネントは、クライアントコンピューティングデバイスにおいてセンサによって検出される第2の入力オーディオ信号を受信できる。自然言語プロセッサコンポーネントは、第2の入力オーディオ信号を構文解析して、第2の入力オーディオ信号中に用語を識別できる。構文解析コンポーネントは、用語に基づいて複数のブレークポイントからブレークポイントを選択できる。構文解析コンポーネントは、ブレークポイントに対応する第1のデジタルコンポーネントの一部分を送信できる。

本システムは、複数のブレークポイントから選択されたブレークポイントに基づいて第2のデジタルコンポーネントを選択し、そしてブレークポイントに対応する第1のデジタルコンポーネントの部分と共にクライアントコンピューティングデバイスに第2のデジタルコンポーネントを送信するコンテンツ選択コンポーネントを更に備えてよい。アノテーションコンポーネントは、第1のデジタルコンポーネント中の画像に基づいてデジタルコンポーネントの第2のアノテーションのセットを生成してよく、そして構文解析コンポーネントは、第2のアノテーションのセットに基づいて複数のブレークポイントを識別してよい。

アノテーションコンポーネントは、第1のデジタルコンポーネント中のクローズドキャプションデータに基づいてデジタルコンポーネントの第2のアノテーションのセットを生成してよい。アノテーションコンポーネントは、第2のクライアントコンピューティングデバイスから第1のデジタルコンポーネントの第2のアノテーションのセットを受信してよい。構文解析コンポーネントは、第2のアノテーションのセットに基づいて複数のブレークポイントを識別してよい。構文解析コンポーネントは、デジタルコンポーネント中にシーン遷移を識別し、そしてシーン遷移に基づいて複数のブレークポイントを識別してよい。

自然言語プロセッサコンポーネントは、クライアントコンピューティングデバイスにおいてセンサによって検出される第3の入力オーディオ信号を受信し、第3の入力オーディオ信号を構文解析して、複数のブレークポイントのうちの第2のブレークポイントの指示を識別してよく、そして構文解析コンポーネントは、クライアントコンピューティングデバイスに、第2のブレークポイントに対応する第1のデジタルコンポーネントの第2の部分を送信してよい。自然言語プロセッサコンポーネントは、第1の入力オーディオ信号を構文解析して、第1の入力オーディオ信号中に第1の意味表現を識別してよく、そして構文解析コンポーネントは、第1の意味論的意味に基づいて複数のブレークポイントからブレークポイントを選択してよい。構文解析コンポーネントは、複数のブレークポイントに基づいて第1のデジタルコンポーネントの複数の部分を生成してよく、そして第1のデジタルコンポーネントの複数の部分の各々に対する意味表現を決定してよい。

アノテーションコンポーネントは、第1のデジタルコンポーネントの複数の部分の各々に対する意味表現に基づいて第1のデジタルコンポーネントの第2のアノテーションのセットを生成してよく、そして構文解析コンポーネントは、第2のアノテーションのセットに基づいて複数のブレークポイントを識別してよい。複数のブレークポイントの各々は異なるシーンの開始に対応してよい。構文解析コンポーネントは、複数のブレークポイントの各々の指示を含む第2のデジタルコンポーネントを生成し、そしてブレークポイントに対応する第1のデジタルコンポーネントの部分を伴う提示のためにクライアントコンピューティングデバイスに第2のデジタルコンポーネントを送信してよい。自然言語プロセッサコンポーネントは、クライアントコンピューティングデバイスから、複数のブレークポイントのうちの1つの選択を含む第3の入力オーディオ信号を受信してよく、そして構文解析コンポーネントは、複数のブレークポイントのうちの1つの選択に基づいて複数のブレークポイントからブレークポイントを選択してよい。

本開示の少なくとも1つの態様によれば、音声作動システムにおいてデジタルコンポーネントを制御する方法が、データ処理システムによって実行される自然言語プロセッサコンポーネントによって、データ処理システムのインタフェースを介して、クライアントコンピューティングデバイスにおいてセンサによって検出される第1の入力オーディオ信号を受信するステップを含むことができる。本方法は、自然言語プロセッサコンポーネントによって、第1の入力オーディオ信号を構文解析して、第1の入力オーディオ信号中に第1のデジタルコンポーネント要求を識別するステップを含むことができる。本方法は、データ処理システムによって実行されるアノテーションコンポーネントによって、第1のデジタルコンポーネント中に認識される発語に少なくとも基づいて第1のデジタルコンポーネントの第1のアノテーションのセットを生成するステップを含むことができる。本方法は、データ処理システムによって実行される構文解析コンポーネントによって、少なくとも第1のアノテーションのセットに基づいて複数のブレークポイントを識別するステップを含むことができる。本方法は、自然言語プロセッサコンポーネントによって、クライアントコンピューティングデバイスにおいてセンサによって検出される第2の入力オーディオ信号を受信するステップを含むことができる。本方法は、自然言語プロセッサコンポーネントによって、第2の入力オーディオ信号を構文解析して、第2の入力オーディオ信号中に用語を識別するステップを含むことができる。本方法は、構文解析コンポーネントによって、用語に基づいて複数のブレークポイントからブレークポイントを選択するステップを含むことができる。本方法は、構文解析コンポーネントによってクライアントコンピューティングデバイスに、ブレークポイントに対応する第1のデジタルコンポーネントの一部分を送信するステップを含むことができる。

本方法は、データ処理システムによって実行されるコンテンツ選択コンポーネントによって、複数のブレークポイントから選択されたブレークポイントに基づいて第2のデジタルコンポーネントを選択するステップと、コンテンツ選択コンポーネントによって、ブレークポイントに対応する第1のデジタルコンポーネントの部分と共にクライアントコンピューティングデバイスに第2のデジタルコンポーネントを送信するステップとを更に含んでよい。本方法は、アノテーションコンポーネントによって、第1のデジタルコンポーネント中の画像に基づいてデジタルコンポーネントの第2のアノテーションのセットを生成するステップと、構文解析コンポーネントによって、第2のアノテーションのセットに基づいて複数のブレークポイントを識別するステップとを更に含んでよい。

本方法は、アノテーションコンポーネントによって、第1のデジタルコンポーネント中のクローズドキャプションデータに基づいてデジタルコンポーネントの第2のアノテーションのセットを生成するステップを更に含んでよい。本方法は、アノテーションコンポーネントによって、第2のクライアントコンピューティングデバイスから第1のデジタルコンポーネントの第2のアノテーションのセットを受信するステップと、構文解析コンポーネントによって、第2のアノテーションのセットに基づいて複数のブレークポイントを識別するステップとを更に含んでよい。本方法は、構文解析コンポーネントによって、デジタルコンポーネント中にシーン遷移を識別するステップと、構文解析コンポーネントによって、少なくともシーン遷移に基づいて複数のブレークポイントを識別するステップとを更に含んでよい。

本方法は、自然言語プロセッサコンポーネントによって、クライアントコンピューティングデバイスにおいてセンサによって検出される第3の入力オーディオ信号を受信するステップと、自然言語プロセッサコンポーネントによって、第3の入力オーディオ信号を構文解析して、複数のブレークポイントのうちの第2のブレークポイントの指示を識別するステップと、構文解析コンポーネントによってクライアントコンピューティングデバイスに、第2のブレークポイントに対応する第1のデジタルコンポーネントの第2の部分を送信するステップとを更に含んでよい。本方法は、自然言語プロセッサコンポーネントによって、第1の入力オーディオ信号を構文解析して、第1の入力オーディオ信号中に第1の意味表現を識別するステップと、構文解析コンポーネントによって、第1の意味論的意味に基づいて複数のブレークポイントからブレークポイントを選択するステップとを更に含んでよい。

本方法は、構文解析コンポーネントによって、複数のブレークポイントに基づいて第1のデジタルコンポーネントの複数の部分を生成するステップと、構文解析コンポーネントによって、第1のデジタルコンポーネントの複数の部分の各々に対する意味表現を決定するステップとを更に含んでよい。本方法は、アノテーションコンポーネントによって、第1のデジタルコンポーネントの複数の部分の各々に対する意味表現に基づいて第1のデジタルコンポーネントの第2のアノテーションのセットを生成するステップと、構文解析コンポーネントによって、第2のアノテーションのセットに少なくとも基づいて複数のブレークポイントを識別するステップとを更に含んでよい。

複数のブレークポイントの各々は異なるシーンの開始に対応してよい。本方法は、構文解析コンポーネントによって、複数のブレークポイントの各々の指示を含む第2のデジタルコンポーネントを生成するステップと、構文解析コンポーネントによって、ブレークポイントに対応する第1のデジタルコンポーネントの部分を伴う提示のためにクライアントコンピューティングデバイスに第2のデジタルコンポーネントを送信するステップとを更に含んでよい。本方法は、自然言語プロセッサコンポーネントによって、クライアントコンピューティングデバイスから、複数のブレークポイントのうちの1つの選択を含む第3の入力オーディオ信号を受信するステップと、構文解析コンポーネントによって、複数のブレークポイントのうちの1つの選択に基づいて複数のブレークポイントからブレークポイントを選択するステップとを更に含んでよい。

これらおよび他の態様および実装が以下に詳細に述べられる。以上の情報および以下の詳細な説明は、様々な態様および実装の例示的な例を含み、かつ特許請求される態様および実装の本質および性質を理解するための概観または枠組みを提供する。図面は、様々な態様および実装の例示および更なる理解を提供するものであり、本明細書に援用されかつその一部を構成する。開示される対象の態様および実施形態は適宜組み合わされてよい。

添付図面は、一定の比率で描かれるとは意図されない。様々な図面における同様の参照番号および記号は同様の要素を示す。明確にする目的で、あらゆるコンポーネントがあらゆる図面において標記され得るわけではない。

本開示の一例に従う、音声作動システムにおいてデジタルコンポーネントを制御するシステム例を示す図である。本開示の一例に従う、時間の経過に伴うデジタルコンポーネントの表現例のブロック図である。本開示の一例に従う、音声作動システムにおいてデジタルコンポーネントを制御する方法例のブロック図である。本開示の一例に従う、図3に例示される方法中の第1の時点でのおよび第2の時点の間のクライアントコンピューティングデバイスを例示する図である。本開示の一例に従う、コンピュータシステム例のブロック図である。

以下に続くのは、セキュアな処理環境においてデータを転送する方法、装置およびシステムに関連する様々な概念、およびその実装のより詳細な説明である。以上に提起されて以下に更に詳細に述べられる様々な概念は、多数の仕方のいずれかで実装され得る。

本開示は概して、音声作動システムにおいてデジタルコンポーネントを制御することを対象とする。ビデオを提示するためのインタフェースが、電気機械再生デバイス(例えば、VCR)を模倣する入力を含み、そして停止、再生、早送りおよび巻戻しなどのボタンを含むことができる。これらの限られた入力で音声作動システムと対話することは困難であり得る。追加的に、ビデオコンテンツと対話することの難しさが、ユーザがビデオコンテンツの一部分だけを選択して見ることを困難にする。ビデオコンテンツの所望の部分だけを見つけて見ることの難しさの結果として、エンドユーザがしばしば、必要とされた部分だけよりもむしろビデオコンテンツ全体を見るかダウンロードし得るので、計算およびネットワークの無駄になり得る。

本技術的解決策のシステムおよび方法は、デジタルアシスタントなどの音声ベースのデバイス用のマルチモーダルインタフェースを可能にする。本解決策は、ユーザがタッチインタフェースを通じておよび音声コマンドを通じてビデオおよび他のコンテンツと対話することを可能にすることができる。停止および再生などの入力に加えて、本解決策は、表示されるビデオファイルに対するアノテーションを自動的に生成することもできる。アノテーションから、本解決策は、ビデオ中に異なるシーン、ビデオ部分またはハウツーステップと関連付けられる1つまたは複数のブレークポイントを識別できる。デジタルアシスタントは、入力オーディオ信号を受信し、そして入力オーディオ信号を構文解析して、入力オーディオ信号内の意味論的エンティティを識別できる。デジタルアシスタントは、識別された意味論的エンティティをアノテーションにマッピングして、入力オーディオ信号中のユーザ要求に対応するビデオの一部分を選択できる。デジタルアシスタントは、次いでビデオの選択された部分にジャンプできる。音声ベースのデジタルアシスタントのユーザがビデオ内の具体的な内容を探すことを可能にすることが、ユーザがビデオの要求された部分にスキップすることを可能にして、ビデオ全体よりもむしろビデオの一部分だけがネットワークを通じて送信されることを可能にすることによって、計算およびネットワーク資源を削減できる。本解決策は、音声ベースのデバイス上でビデオと対話するための新たな改善されたユーザインタフェースもユーザに提供して、ヒューマンマシン対話プロセスを改善する。

図1は、音声作動システムにおいてデジタルコンポーネントを制御するシステム例100を例示する。システム100は、デジタルコンポーネント選択インフラストラクチャを含むことができる。システム100は、データ処理システム102を含むことができる。データ処理システム102は、ネットワーク105を介してデジタルコンポーネントプロバイダデバイス106(例えば、コンテンツプロバイダデバイス)またはクライアントコンピューティングデバイス104の1つまたは複数と通信できる。ネットワーク105は、インターネットなどのコンピュータネットワーク、ローカル、ワイド、メトロまたは他のエリアネットワーク、イントラネット、衛星ネットワーク、および音声またはデータ移動電話ネットワークなどの他の通信ネットワークを含むことができる。ネットワーク105は、ラップトップ、デスクトップ、タブレット、デジタルアシスタント、携帯情報端末、スマートウォッチ、ウェアラブルデバイス、スマートフォン、ポータブルコンピュータまたはスピーカなどの、少なくとも1つのコンピューティングデバイス104上で提示、出力、レンダリングまたは表示できるウェブページ、ウェブサイト、ドメイン名またはユニフォームリソースロケータなどの情報資源にアクセスするために使用できる。例えば、ネットワーク105を介して、クライアントコンピューティングデバイス104のユーザが、デジタルコンポーネントプロバイダデバイス106によって提供される情報またはデータにアクセスできる。クライアントコンピューティングデバイス104は、ディスプレイを含んでも含まなくてもよい。例えば、クライアントコンピューティングデバイス104は、マイクロホンおよびスピーカなどの、限られた種類のユーザインタフェースを含み得る(例えば、クライアントコンピューティングデバイス104は、音声駆動またはオーディオベースのインタフェースを含むことができる)。コンピューティングデバイス104の主要なユーザインタフェースは、マイクロホンおよびスピーカであってもよい。

ネットワーク105は、表示ネットワーク、例えば、コンテンツ配置もしくは検索エンジン結果システムと関連付けられる、またはサードパーティデジタルコンポーネントを含む資格がある、インターネット上で利用可能な情報資源の部分集合を含むまたは構成することができる。ネットワーク105は、クライアントコンピューティングデバイス104によって提示、出力、レンダリングまたは表示できるウェブページ、ウェブサイト、ドメイン名またはユニフォームリソースロケータなどの情報資源にアクセスするためにデータ処理システム102によって使用できる。例えば、ネットワーク105を介して、クライアントコンピューティングデバイス104のユーザが、デジタルコンポーネントプロバイダデバイス106によって提供される情報またはデータにアクセスできる。

ネットワーク105は、任意の種類または形態のネットワークでよく、以下のいずれかを含んでよい:地点間ネットワーク、放送ネットワーク、ワイドエリアネットワーク、ローカルエリアネットワーク、遠隔通信ネットワーク、データ通信ネットワーク、コンピュータネットワーク、ATM(非同期転送モード)ネットワーク、SONET(同期光ネットワーク)ネットワーク、SDH(同期デジタルハイアラーキ)ネットワーク、無線ネットワークおよび有線ネットワーク。ネットワーク105は、赤外線チャネルまたは衛星帯域などの無線リンクを含んでよい。ネットワーク105のトポロジは、バス、スターまたはリングネットワークトポロジを含んでよい。ネットワークは、高度移動電話プロトコル(「AMPS」)、時分割多元接続(「TDMA」)、符号分割多元接続(「CDMA」)、移動通信用グローバルシステム(「GSM」)、汎用パケット無線サービス(「GPRS」)またはユニバーサル移動通信システム(「UMTS」)を含む、モバイルデバイスの間で通信するために使用される任意の1つまたは複数のプロトコルを使用する移動電話ネットワークを含んでよい。異なる種類のデータが異なるプロトコルを介して送信されてよく、または同じ種類のデータが異なるプロトコルを介して送信されてよい。

システム100は、少なくとも1つのデータ処理システム102を含むことができる。データ処理システム102は、例えばコンピューティングデバイス104またはデジタルコンポーネントプロバイダデバイス106とネットワーク105を介して通信する、プロセッサを有するコンピューティングデバイスなどの、少なくとも1つの論理デバイスを含むことができる。データ処理システム102は、少なくとも1つの計算資源、サーバ、プロセッサまたはメモリを含むことができる。例えば、データ処理システム102は、少なくとも1つのデータセンタに設けられる複数の計算資源またはサーバを含むことができる。データ処理システム102は、多数の、論理的にグループ化されたサーバを含み、そして分散コンピューティング技術を促進できる。サーバの論理グループは、データセンタ、サーバファームまたはマシンファームと称されてよい。サーバは、地理的にも分散できる。データセンタもしくはマシンファームが単一のエンティティとして管理されてよく、またはマシンファームは複数のマシンファームを含むことができる。各マシンファーム内のサーバは異種であることができ、サーバまたはマシンの1つまたは複数が1つまたは複数の種類のオペレーティングシステムプラットフォームに従って動作できる。

マシンファームにおけるサーバは、関連するストレージシステムと共に高密度ラックシステムに格納され、そして企業データセンタに設けることができる。例えば、このようにサーバを統合することは、局所的高性能ネットワーク上にサーバおよび高性能ストレージシステムを設けることによってシステム管理性、データセキュリティ、システムの物理的セキュリティ、およびシステム性能を改善し得る。サーバおよびストレージシステムを含む、データ処理システム102のコンポーネントの全部または一部の集中化、ならびにそれらを高度システム管理ツールと結合することが、サーバ資源のより効率的な使用を許容して、電力および処理要件を節約しかつ帯域幅使用を削減する。

クライアントコンピューティングデバイス104は、少なくとも1つのローカルデジタルアシスタント134、少なくとも1つのセンサ138、少なくとも1つのトランスデューサ140、少なくとも1つのオーディオドライバ142または少なくとも1つのディスプレイ144の1つまたは複数を含む、実行する、それらとインタフェースする、またはその他通信することができる。センサ138は、例えば、カメラ、周辺光センサ、近接センサ、温度センサ、加速度計、ジャイロスコープ、動き検出器、GPSセンサ、位置センサ、マイクロホン、ビデオ、画像検出またはタッチセンサを含むことができる。トランスデューサ140はスピーカまたはマイクロホンを含む、またはその一部であることができる。オーディオドライバ142は、ハードウェアトランスデューサ140にソフトウェアインタフェースを提供できる。オーディオドライバ142は、データ処理システム102によって提供されるオーディオファイルまたは他の命令を実行して、対応する音響波または音波を生成するようにトランスデューサ140を制御できる。ディスプレイ144は、発光ダイオード、有機発光ダイオード、液晶ディスプレイ、レーザまたはディスプレイなど、ビジュアル指示または光出力を提供するように構成される1つまたは複数のハードウェアまたはソフトウェアコンポーネントを含むことができる。

ローカルデジタルアシスタント134は、1つもしくは複数のプロセッサ、論理アレイまたはメモリを含むことができる、またはそれによって実行できる。ローカルデジタルアシスタント134は、キーワードを検出し、そしてキーワードに基づいてアクションを行うことができる。ローカルデジタルアシスタント134は、データ処理システム102において実行されるリモートデジタルアシスタントコンポーネント112のインスタンスであることができ、またはリモートデジタルアシスタントコンポーネント112の機能のいずれかを行うことができる。ローカルデジタルアシスタント134は、更なる処理のためにデータ処理システム102(例えば、リモートデジタルアシスタントコンポーネント112)にデータとして用語を送信する前に1つまたは複数の用語を除去または用語を修正できる。ローカルデジタルアシスタント134は、トランスデューサ140によって検出されるアナログオーディオ信号をデジタルオーディオ信号へ変換し、そしてネットワーク105を介してデータ処理システム102にデジタルオーディオ信号を搬送する1つまたは複数のデータパケットを送信できる。ローカルデジタルアシスタント134は、そのような送信を行う命令を検出したことに応じて入力オーディオ信号の一部または全部を搬送するデータパケットを送信できる。命令は、例えば、データ処理システム102に入力オーディオ信号を備えるデータパケットを送信するトリガキーワードまたは他のキーワードまたは承認を含むことができる。

ローカルデジタルアシスタント134は、入力オーディオ信号にプレフィルタリングまたは前処理を行って、オーディオの或る周波数を除去できる。プレフィルタリングは、ローパスフィルタ、ハイパスフィルタまたはバンドパスフィルタなどのフィルタを含むことができる。フィルタは、周波数領域において適用できる。フィルタは、デジタル信号処理技術を使用して適用できる。フィルタは、人声または人語に対応する周波数を保つ一方で、人語の典型的な周波数から外れる周波数を排除するように構成できる。例えば、バンドパスフィルタは、第1の閾値(例えば、70Hz、75Hz、80Hz、85Hz、90Hz、95Hz、100Hzまたは105Hz)未満のおよび第2の閾値(例えば、200Hz、205Hz、210Hz、225Hz、235Hz、245Hzまたは255Hz)を超える周波数を除去するように構成できる。バンドパスフィルタを適用することで、下流処理における計算資源利用を削減できる。コンピューティングデバイス104上のローカルデジタルアシスタント134は、データ処理システム102に入力オーディオ信号を送信する前にバンドパスフィルタを適用し、それによってネットワーク帯域幅利用を削減できる。しかしながら、コンピューティングデバイス104に利用可能な計算資源および利用可能なネットワーク帯域幅に基づいて、データ処理システム102に入力オーディオ信号を提供して、データ処理システム102がフィルタリングを行うことを許容することがより効率的であり得る。

ローカルデジタルアシスタント134は、雑音低減技術などの追加の前処理またはプレフィルタリング技術を適用して、自然言語プロセッサに干渉し得る周囲雑音レベルを低減させることができる。雑音低減技術は、自然言語プロセッサの精度および速度を改善し、それによってデータ処理システム102の性能を改善し、かつディスプレイ144を介して提供されるグラフィカルユーザインタフェースのレンダリングを管理できる。

クライアントコンピューティングデバイス104は、クライアントコンピューティングデバイス104へ(センサ138またはトランスデューサ140を介して)オーディオ入力として音声クエリを入力し、そしてデータ処理システム102またはデジタルコンポーネントプロバイダデバイス106からオーディオ(または他の)出力を受け取るエンドユーザと関連付けられて、クライアントコンピューティングデバイス104のエンドユーザに提示、表示またはレンダリングできる。デジタルコンポーネントは、データ処理システム102またはデジタルコンポーネントプロバイダデバイス106からクライアントコンピューティングデバイス104に提供できるコンピュータ生成音声を含むことができる。クライアントコンピューティングデバイス104は、トランスデューサ140(例えば、スピーカ)を介してエンドユーザにコンピュータ生成音声をレンダリングできる。コンピュータ生成音声は、実際の人物またはコンピュータ生成言語からの録音を含むことができる。クライアントコンピューティングデバイス104は、コンピューティングデバイス104に通信的に結合されるディスプレイデバイス144を介してビジュアル出力を提供できる。

クライアントコンピューティングデバイス104に音声クエリを入力するエンドユーザは、複数のクライアントコンピューティングデバイス104と関連付けることができる。例えば、エンドユーザは、スピーカベースのデジタルアシスタントデバイスであることができる第1のクライアントコンピューティングデバイス104、モバイルデバイス(例えば、スマートフォン)であることができる第2のクライアントコンピューティングデバイス104、およびデスクトップコンピュータであることができる第3のクライアントコンピューティングデバイス104と関連付けることができる。データ処理システム102は、共通のログイン、位置、ネットワークまたは他のリンキングデータを通じてクライアントコンピューティングデバイス104の各々を関連付けることができる。例えば、エンドユーザは、同じアカウントユーザ名およびパスワードでクライアントコンピューティングデバイス104の各々へログインしてよい。

クライアントコンピューティングデバイス104は、コンピューティングデバイス104のセンサ138(例えば、マイクロホン)によって検出される入力オーディオ信号を受信できる。入力オーディオ信号は、例えば、言語で提供されるクエリ、質問、コマンド、命令または他の文を含むことができる。入力オーディオ信号は、質問または要求が向けられるサードパーティ(例えば、デジタルコンポーネントプロバイダデバイス106)の識別子または名前を含むことができる。

クライアントコンピューティングデバイス104は、デジタルアシスタントデバイスを含む、実行する、またはそのように称することができる。デジタルアシスタントデバイスは、コンピューティングデバイス104の1つまたは複数のコンポーネントを含むことができる。デジタルアシスタントデバイスは、データ処理システム102から表示出力を受信し、そしてディスプレイ144上に表示出力をレンダリングできるグラフィックスドライバを含むことができる。グラフィックスドライバは、グラフィックスまたはビジュアル出力がディスプレイ144上にどのように表示されるかを制御または改良するハードウェアまたはソフトウェアコンポーネントを含むことができる。グラフィックスドライバは、例えば、グラフィックコンポーネントがコンピューティングデバイス104(またはデジタルアシスタント)の残りとどのように機能するかを制御するプログラムを含むことができる。ローカルデジタルアシスタント134は、入力オーディオ信号をフィルタリングしてフィルタ済み入力オーディオ信号を作成し、フィルタ済み入力オーディオ信号をデータパケットに変換し、そして1つまたは複数のプロセッサおよびメモリを備えるデータ処理システムにデータパケットを送信できる。

デジタルアシスタントデバイスは、オーディオドライバ142およびスピーカコンポーネント(例えば、トランスデューサ140)を含むことができる。プリプロセッサコンポーネント140は、表示出力の指示を受信し、そして出力オーディオ信号を生成するようにオーディオドライバ142に命令して、スピーカコンポーネント(例えば、トランスデューサ140)に表示出力の指示に対応するオーディオ出力を送信させる。

システム100は、少なくともデジタルコンポーネントプロバイダデバイス106を含む、それにアクセスする、またはその他それと対話することができる。デジタルコンポーネントプロバイダデバイス106は、クライアントコンピューティングデバイス104またはデータ処理システム102にデジタルコンポーネントを提供できる1つまたは複数のサーバを含むことができる。デジタルコンポーネントプロバイダデバイス106またはそのコンポーネントは、データ処理システム102と統合でき、またはデータ処理システム102によって少なくとも部分的に実行できる。デジタルコンポーネントプロバイダデバイス106は、例えばコンピューティングデバイス104、データ処理システム102またはデジタルコンポーネントプロバイダデバイス106とネットワーク105を介して通信する、プロセッサを有するコンピューティングデバイスなどの、少なくとも1つの論理デバイスを含むことができる。デジタルコンポーネントプロバイダデバイス106は、少なくとも1つの計算資源、サーバ、プロセッサまたはメモリを含むことができる。例えば、デジタルコンポーネントプロバイダデバイス106は、少なくとも1つのデータセンタに設けられる複数の計算資源またはサーバを含むことができる。

デジタルコンポーネントプロバイダデバイス106は、オーディオ出力デジタルコンポーネント、ビジュアル出力デジタルコンポーネントまたはその混合としてのクライアントコンピューティングデバイス104による提示のためにオーディオ、ビジュアルまたはマルチメディアベースのデジタルコンポーネントを提供できる。デジタルコンポーネントは、デジタルコンテンツである、またはそれを含むことができる。デジタルコンポーネントは、デジタルオブジェクトである、またはそれを含むことができる。デジタルコンポーネントは、サブスクリプションベースのコンテンツまたは従量課金コンテンツを含むことができる。デジタルコンポーネントが複数のデジタルコンテンツアイテムを含むことができる。例えば、デジタルコンポーネントが、ストリーミング音楽サービス(例えば、デジタルコンポーネントプロバイダデバイス106)からのデータストリームであることができる。デジタルコンポーネントは、デジタル映画、ウェブサイト、曲、アプリケーション(例えば、スマートフォンもしくは他のクライアントデバイスアプリケーション)、または他のテキストベース、オーディオベース、画像ベースもしくはビデオベースのコンテンツを含むことができる、またはそれであることができる。例えば、デジタルコンポーネントは、クライアントコンピューティングデバイス104にデジタルコンテンツプロバイダデバイス106によって提供されるハウツービデオ、映画または他のビデオであることができる。デジタルコンテンツプロバイダデバイス106は、デジタルコンテンツプロバイダデバイス106によって生成される、ユーザによってアップロードされる、または他のデジタルコンテンツプロバイダデバイス106から供給されるデジタルコンポーネントを提供できる。

デジタルコンポーネントプロバイダデバイス106は、ネットワーク105を介してクライアントコンピューティングデバイス104にデジタルコンポーネントを提供し、データ処理システム102をバイパスできる。デジタルコンポーネントプロバイダデバイス106は、ネットワーク105およびデータ処理システム102を介してクライアントコンピューティングデバイス104にデジタルコンポーネントを提供できる。例えば、デジタルコンポーネントプロバイダデバイス106は、デジタルコンポーネントをデータ処理システム102に提供でき、これがデジタルコンポーネントを記憶し、そしてクライアントコンピューティングデバイス104によって要求されるとクライアントコンピューティングデバイス104にデジタルコンポーネントを提供できる。

データ処理システム102は、少なくとも1つの計算資源またはサーバを含むことができる。データ処理システム102は、少なくとも1つのインタフェース110を含む、それとインタフェースする、またはその他通信することができる。データ処理システム102は、少なくとも1つのリモートデジタルアシスタントコンポーネント112を含む、それとインタフェースする、またはその他通信することができる。リモートデジタルアシスタントコンポーネント112は、少なくとも1つの自然言語プロセッサコンポーネント114を含む、それとインタフェースする、またはその他通信することができる。データ処理システム102は、少なくとも1つのデジタルコンポーネントセレクタ120を含む、それとインタフェースする、またはその他通信することができる。データ処理システム102は、少なくとも1つのアノテーションコンポーネント135を含む、それとインタフェースする、またはその他通信することができる。データ処理システム102は、少なくとも1つの構文解析コンポーネント116を含む、それとインタフェースする、またはその他通信することができる。データ処理システム102は、少なくとも1つのデータリポジトリ124を含む、それとインタフェースする、またはその他通信することができる。少なくとも1つのデータリポジトリ124は、1つまたは複数のデータ構造またはデータベースに、アノテーションのセット126、ブレークポイント128、キャプションデータ130およびコンテンツデータ132を含むまたは記憶することができる。データリポジトリ124は、1つまたは複数のローカルまたは分散データベースを含むことができ、かつデータベース管理を含むことができる。

インタフェース110、リモートデジタルアシスタントコンポーネント112、自然言語プロセッサコンポーネント114、デジタルコンポーネントセレクタ120、アノテーションコンポーネント135および構文解析コンポーネント116は、データベースリポジトリまたはデータベース124と通信するように構成されるプログラマブル論理アレイエンジンまたはモジュールなどの、少なくとも1つの処理ユニットまたは他の論理デバイスを各々含むことができる。インタフェース110、リモートデジタルアシスタントコンポーネント112、自然言語プロセッサコンポーネント114、デジタルコンポーネントセレクタ120、アノテーションコンポーネント135、構文解析コンポーネント116およびデータリポジトリ124は、別々のコンポーネント、単一のコンポーネント、または複数データ処理システム102の一部であることができる。システム100および、データ処理システム102などの、そのコンポーネントは、1つまたは複数のプロセッサ、論理デバイスまたは回路などの、ハードウェア要素を含むことができる。

データ処理システム102は、インタフェース110を含むことができる。インタフェース110は、例えばデータパケットを使用して情報を受信および送信するように構成、構築または動作できる。インタフェース110は、ネットワークプロトコルなどの、1つまたは複数のプロトコルを使用して情報を受信および送信できる。インタフェース110は、ハードウェアインタフェース、ソフトウェアインタフェース、有線インタフェースまたは無線インタフェースを含むことができる。インタフェース110は、データを1つの形式から別の形式に翻訳または形式化するのを容易にすることができる。例えば、インタフェース110は、ソフトウェアコンポーネントなどの、様々なコンポーネント間で通信するための定義を含むアプリケーションプログラミングインタフェースを含むことができる。

データ処理システム102は、ローカルデジタルアシスタント134など、クライアントコンピューティングデバイス104においてインストールされて、データ処理システム102のインタフェース110に入力オーディオ信号を通信し、そして出力オーディオ信号またはビジュアル出力をレンダリングするようにクライアントコンピューティングデバイスのコンポーネントを駆動するアプリケーション、スクリプトまたはプログラムを含むことができる。データ処理システム102は、或る入力オーディオ信号(または複数の入力オーディオ信号)を含むまたは識別するデータパケット、デジタルファイルまたは他の信号を受信できる。コンピューティングデバイス104は、トランスデューサ140を介してオーディオ信号を検出し、そしてアナログデジタル変換器を介してアナログオーディオ信号をデジタルファイルに変換できる。例えば、オーディオドライバ142は、アナログデジタル変換器コンポーネントを含むことができる。プリプロセッサコンポーネント140は、オーディオ信号を、ネットワーク105を通じてデータパケットを介して送信できるデジタルファイルに変換できる。

データ処理システム102のリモートデジタルアシスタントコンポーネント112は、NLPコンポーネント114を実行してまたは走らせて、コンピューティングデバイス104のセンサ138によって検出された入力オーディオ信号を含むデータパケットを受信または取得できる。クライアントコンピューティングデバイス104は、NLPコンポーネント114のインスタンスを実行して、クライアントコンピューティングデバイス104において言語およびテキストを処理することもできる。データパケットはデジタルファイルを提供できる。NLPコンポーネント114は、オーディオ信号を備えるデジタルファイルまたはデータパケットを受信または取得し、そしてオーディオ信号を構文解析できる。例えば、NLPコンポーネント114は、人間とコンピュータとの間の対話に備えることができる。NLPコンポーネント114には、自然言語を理解し、そしてデータ処理システム102が人間または自然言語入力から意味を導き出すことを可能にするための技術を構成できる。NLPコンポーネント114には、統計的機械学習などの機械学習に基づく技術を含むことができる、または構成できる。NLPコンポーネント114は、決定木、統計モデルまたは確率モデルを利用して入力オーディオ信号を構文解析できる。

NLPコンポーネント114は、例えば、固有表現認識(例えば、テキストのストリームが与えられると、テキストにおけるどの項目が、人々または場所などの固有名にマッピングするか、および各そのような名前の種類が、人物、位置または組織など、何であるかを判定する)、自然言語生成(例えば、コンピュータデータベースからの情報または意味的意図を理解可能な人間語へ変換する)、自然言語理解(例えば、テキストを、コンピュータモジュールが操作できる一階論理構造などのより正式な表現へ変換する)、機械翻訳(例えば、テキストを1つの人間言語から別の言語に自動的に翻訳する)、形態分割(例えば、語を個々の形態素へ分離し、そして形態素のクラスを識別するが、検討されている言語の語の形態または構造の複雑さに基づいて困難であり得る)、質問応答(例えば、具体的または自由回答式であることができる人間語質問への回答を決定する)、および意味処理(例えば、識別される語を類似の意味を持つ他の語と関連させるために、語を識別してその意味を符号化した後に起こることができる処理)などの機能を行うことができる。NLPコンポーネント114は、識別された語の意味表現を識別できる。意味表現を識別することによって、データ処理システムは、具体的な語一致よりもむしろそれらの類似の意味論的意味に基づいて語または句を照合できる。例えば、意味表現に基づく入力テキストの検索は、検索された語だけの出現に限るよりむしろ検索された語の同義語を返すことができる。

NLPコンポーネント114は、記憶された、オーディオ波形の代表集合(例えば、データリポジトリ124における)に対して入力信号を比較し、そして最も近い一致を選ぶことによって入力オーディオ信号を認識テキストへ変換できる。オーディオ波形の集合は、データリポジトリ124またはデータ処理システム102にとってアクセス可能な他のデータベースに記憶できる。代表波形はユーザの大集合にわたって生成され、次いでユーザからの発語サンプルで強化されてよい。オーディオ信号が認識テキストへ変換された後に、NLPコンポーネント114は、データ処理システム102が扱うことができるアクションと、例えばユーザにわたる訓練を介してまたはマニュアル仕様を通じて、関連付けられる語にテキストを照合する。NLPコンポーネント114は、画像またはビデオ入力をテキストまたはデジタルファイルに変換できる。例えば、NLPコンポーネント114は、ビデオファイル中に発語を検出し、発語をテキストへ変換し、次いでテキストを処理できる。NLPコンポーネント114は、ビデオファイル中にクローズドキャプションデータを識別もしくは受信し、そしてクローズドキャプションデータを処理してテキストを認識する、またはクローズドキャプションデータに意味解析を行うことができる。NLPコンポーネント114は、データリポジトリ124にキャプションデータ130としてデジタルコンポーネントの各々に対するクローズドキャプションデータを記憶できる。NLPコンポーネント114は変換することができ、NLPコンポーネント114は画像またはビデオ入力を処理、解析または解釈して、アクションを行う、要求を生成する、またはデータ構造を選択もしくは識別することができる。

データ処理システム102は、入力オーディオ信号に加えて、またはそれの代わりに、画像またはビデオ入力信号を受信できる。データ処理システム102は、例えば画像解釈技術、コンピュータビジョン、機械学習エンジン、または画像もしくはビデオを認識もしくは解釈する他の技術を使用して画像またはビデオ入力信号を処理して、画像またはビデオをデジタルファイルに変換できる。1つまたは複数の画像解釈技術、コンピュータビジョン技術、または機械学習技術は、集合的に映像技術と称することができる。データ処理システム102(例えば、NLPコンポーネント114)には、オーディオ処理技術に加えて、またはそれの代わりに、映像技術を構成できる。

NLPコンポーネント114は、入力オーディオ信号を取得できる。入力オーディオ信号から、NLPコンポーネント114は、少なくとも1つの要求または要求に対応する少なくとも1つのトリガキーワードを識別できる。要求は、意図、デジタルコンポーネント、または入力オーディオ信号の対象を示すことができる。トリガキーワードは、とられることになりそうなアクションの種類を示すことができる。例えば、NLPコンポーネント114は、入力オーディオ信号を構文解析して、ビデオファイルの具体的な一部にスキップせよとの少なくとも1つの要求を識別できる。トリガキーワードは、とられることになるアクションを示す少なくとも1つの語、句、語根もしくは部分語、または派生語を含むことができる。例えば、トリガキーワード「行く」、「に行く」または「スキップする」は、エンドユーザがビデオファイルの具体的な部分を視聴したいということを示すことができる。

NLPコンポーネント114は、入力オーディオ信号を構文解析して、デジタルコンポーネントの要求を識別、決定、検索、またはその他取得できる。デジタルコンポーネントは、ストリーミング映画、番組または他のビデオファイルなどの、ビデオベースのファイルであることができる。例えば、NLPコンポーネント114は、入力オーディオ信号に意味処理技術を適用して、要求されたデジタルコンポーネントを識別できる。NLPコンポーネント114は、入力オーディオ信号に意味処理技術を適用して、第1のトリガキーワードおよび第2のトリガキーワードなどの、1つまたは複数のトリガキーワードを含むトリガフレーズを識別できる。例えば、入力オーディオ信号は、文「バイクを修理するビデオを再生して」を含むことができる。NLPコンポーネント114は、入力オーディオ信号がトリガキーワード「再生する」を含むと判定できる。NLPコンポーネント114は、要求が、バイクが修理されるデジタルコンポーネント(例えば、ビデオ)に対してであると判定できる。

データ処理システム102のリモートデジタルアシスタントコンポーネント112は、アノテーションコンポーネント135のインスタンスを実行してまたは走らせて、デジタルコンポーネントに対するアノテーションのセットを生成できる。アノテーションコンポーネント135は、提示のためにクライアントコンピューティングデバイス104に送信されるデジタルコンポーネントに対するアノテーションのセットを生成できる。アノテーションセットは、デジタルコンポーネント(例えば、ビデオファイル)全体に対する1つもしくは複数のアノテーションまたはデジタルコンポーネント中に識別されるシーンもしくはステップの各々に対する1つもしくは複数のアノテーションを含むことができる。構文解析コンポーネント116は、アノテーションセットを使用して、デジタルコンポーネントまたはデジタルコンポーネントのシーン内に含まれる意味、意味論的意味または内容を決定できる。構文解析コンポーネント116は、アノテーションセットを使用して、デジタルコンポーネント中に識別されたシーンまたはステップに入力オーディオ信号中の要求を照合できる。アノテーションコンポーネント135は、データリポジトリにアノテーションセット126としてアノテーションを記憶できる。アノテーションセット126は、アノテーションセット126が関連付けられるデジタルコンポーネント、ブレークポイント、シーン、ビデオ部分または任意のその組合せを識別するデータ構造またはデータベースに記憶できる。

アノテーションコンポーネント135は、デジタルコンポーネント中に認識される発語または認識されるテキストに基づいてアノテーションのセットを生成できる。例えば、デジタルコンポーネントはビデオであることができ、そしてNLPコンポーネント114はビデオから発語を抽出および処理できる。ビデオの発語内容に基づいて、アノテーションコンポーネントは、ビデオの内容を決定し、そしてキーワードにフラグを付けることができる。例えば、ハウツービデオでは、アノテーションコンポーネントは、道具または特定材料の名前にフラグを付けることができる。この例では、エンドユーザがハウツービデオを見ているときに入力オーディオ信号「この作業を行うために私はどんな道具が必要か」を与えれば、アノテーションを使用して、データ処理システムは、ビデオが道具について述べるハウツービデオの部分をエンドユーザに提示できる。アノテーションコンポーネント135は、デジタルコンポーネントと関連したクローズドキャプションデータに基づいてアノテーションのセットを生成できる。アノテーションのセットは、デジタルコンポーネントまたはその一部分の間に話される語のリストを含むことができる。構文解析コンポーネント116は、キーワード検索を行って、デジタルコンポーネントまたはその一部分の間に話される用語と入力オーディオ信号中に識別されるキーワードを照合できる。アノテーションのセットは、デジタルコンポーネント中の用語または句の意味論的意味または表現を含むことができる。アノテーションのセットは、デジタルコンポーネントの各シーンまたは部分に対する意味論的意味を示すことができる。

アノテーションコンポーネント135は、デジタルコンポーネント中の画像に基づいてアノテーションのセットを生成できる。アノテーションコンポーネント135は、画像ベースまたはビデオベースのデジタルコンポーネントからフレームまたは画像を抽出できる。アノテーションコンポーネント135は、画像に画像認識を行うことができる。画像に基づくアノテーションのセットは、デジタルコンポーネント中に識別される物体および識別された物体がデジタルコンポーネント中に出現する時点のデータベースを含むことができる。アノテーションコンポーネント135は、ビデオベースのデジタルコンポーネント中に遷移を検出することもできる。遷移は、例えば、シーンの変化または黒へのフェードであることができる。遷移は、第1のシーンから第2のシーンへの変化を表すことができる。アノテーションのセットは、デジタルコンポーネント中にどんな種類の遷移が識別されたかおよび遷移がデジタルコンポーネント中に出現した時点を示すことができる。

アノテーションコンポーネント135は、第2のクライアントコンピューティングデバイス104またはデジタルコンテンツプロバイダデバイス106からの入力に基づいてアノテーションのセットを生成できる。例えば、デジタルコンポーネントは、デジタルコンテンツプロバイダデバイス106によって、または第2のクライアントコンピューティングデバイス104のエンドユーザによって提供できる。デジタルコンポーネントの提供者は、デジタルコンポーネントをアノテーションし、そしてデータ処理システム102にアノテーションのセットとしてアノテーションを送信できる。提供者からのアノテーションのセットは、ビデオ中のシーンもしくはステップの始め、デジタルコンポーネントの異なる部分に割り当てられるキーワードもしくはタグ、または定められたブレークポイントの位置を示す、デジタルコンポーネントにおける時点を含むことができる。例えば、デジタルコンポーネント(例えば、ビデオ)の所有者または作成者は、デジタルコンポーネントのメタデータにブレークポイントの位置を設定して、デジタルコンポーネント中で述べられるステップの各々を識別できる。

データ処理システム102のリモートデジタルアシスタントコンポーネント112は、構文解析コンポーネント116のインスタンスを実行してまたは走らせて、アノテーションコンポーネント135によって生成されたアノテーションのセットに基づいてデジタルコンポーネントを異なる部分へ構文解析できる。デジタルコンポーネントを構文解析することは、デジタルコンポーネントを別々のデジタルコンポーネントへ分割することを含むことができる。例えば、構文解析コンポーネント116は、ビデオを複数の小さなビデオへ分割できる。小さなビデオの各々は、元のビデオに含まれる単一のシーンまたはステップを含んでよい。デジタルコンポーネントを構文解析することは、デジタルコンポーネント中にブレークポイントを決定することを含むことができる。デジタルコンポーネントの一部分は、2つのブレークポイント(またはファイルの始めとデジタルコンポーネントの最初の部分に対する最初のブレークポイントおよびファイルの終わりとデジタルコンポーネントの最後の部分に対する最後のブレークポイント)間として定めることができる。構文解析コンポーネント116は、アノテーションのセットに基づいてブレークポイントを設定できる。例えば、構文解析コンポーネント116は、シーン間の遷移にブレークポイントを設定できる。構文解析コンポーネント116は、単一のシーン内に複数のブレークポイントを設定できる。例えば、単一のシーンがハウツービデオ中の単一のトピックに及んでよい。単一のトピックのシーンを含むハウツービデオの部分は、2つのブレークポイントによって定めることができる。構文解析コンポーネント116は、シーンの間にとられる異なるステップを示す、シーン内の複数のブレークポイントを含めることもできる。構文解析コンポーネント116は、機械学習および/または自然言語処理を使用してブレークポイントを設定して、ビデオ中の異なるステップ、ビデオ中の遷移、または有用なフレーズに対応し得るデジタルコンポーネント中の位置を識別できる。例えば、構文解析コンポーネント116は、材料のリスト、道具のリストまたは具体的な種類のシーン(例えば、カーチェイスシーン)などの、デジタルコンポーネント中に有益または識別可能であり得るアノテーションを識別し、そしてそれらの位置にブレークポイントを設定できる。構文解析コンポーネント116は、デジタルコンポーネントの視聴履歴に基づいてブレークポイントを設定することもできる。例えば、ビデオの下位部分だけが典型的にユーザによって視聴されれば、構文解析コンポーネント116は、下位部分をビデオの重要または関連部分として識別でき、そして下位部分の始め近くにブレークポイントを設定できる。構文解析コンポーネント116は、デジタルコンポーネントに対するブレークポイントの各々を決定または識別できる。構文解析コンポーネント116は、データリポジトリ124にブレークポイント128としてブレークポイントを保存できる。ブレークポイント128は、デジタルコンポーネントの指示と関連付けてブレークポイントの各々の時点を記憶するデータベースであることができる。ブレークポイントは、デジタルコンポーネント内に設定間隔で設定できる。例えば、構文解析コンポーネント116は、デジタルコンポーネントの5、10、15、20、25、30または60分ごとにブレークポイントを設定できる。

デジタルコンポーネントセレクタ120は、クライアントコンピューティングデバイス104によって処理され、そしてディスプレイ144またはトランスデューサ140(例えば、スピーカ)を介してユーザに提示できるテキスト、文字列、文字、ビデオファイル、画像ファイルまたはオーディオファイルを含むデジタルコンポーネントを選択できる。デジタルコンポーネントセレクタ120は、入力オーディオ信号中にNLPコンポーネント114によって識別される要求に応じたデジタルコンポーネントを選択できる。所与の要求に対して、デジタルコンポーネントセレクタ120は、主要なデジタルコンポーネントも設けることができる補足のデジタルコンポーネントを選択できる。主要なデジタルコンポーネントは、要求に応じて直接選択されるデジタルコンポーネントであることができる。例えば、主要なデジタルコンポーネントは、ユーザによって要求されるハウツービデオであることができる。補足のデジタルコンポーネントは、追加情報を提供するまたは主要なデジタルコンポーネントに関連する追加のデジタルコンポーネントであることができる。

デジタルコンポーネントセレクタ120は、どのデジタルコンポーネントプロバイダデバイス106が要求を満足させるべきであるまたは満足させることができるかを選択でき、そしてそのデジタルコンポーネントプロバイダデバイス106に要求を転送できる。例えば、データ処理システム102は、デジタルコンポーネントプロバイダデバイス106とクライアントコンピューティングデバイス104との間のセッションを開始して、デジタルコンポーネントプロバイダデバイス106がクライアントコンピューティングデバイス104にデジタルコンポーネントを送信することを可能にすることができる。デジタルコンポーネントセレクタ120は、デジタルコンポーネントプロバイダデバイス106に1つまたは複数のデジタルコンポーネントを要求できる。デジタルコンポーネントプロバイダデバイス106は、デジタルコンポーネントをデータ処理システム102に提供でき、これがデジタルコンポーネントをデータリポジトリ124に記憶できる。デジタルコンポーネントの要求に応じて、デジタルコンポーネントセレクタ120は、データリポジトリ124からデジタルコンポーネントを検索できる。デジタルコンポーネントの要求に応答して、デジタルコンポーネントセレクタ120は、要求に応答してクライアントコンピューティングデバイス104に提供するようにデジタルコンポーネントの一部分または全部を選択できる。

デジタルコンポーネントセレクタ120は、リアルタイムコンテンツ選択プロセスを介して複数のデジタルコンポーネントを選択できる。デジタルコンポーネントセレクタ120は、デジタルコンポーネントをスコア付けおよびランク付けし、そして出力マージャコンポーネント120に複数のデジタルコンポーネントを提供して、出力マージャコンポーネント120が最高ランクのデジタルコンポーネントを選択することを許容できる。デジタルコンポーネントセレクタ120は、入力オーディオ信号(またはそこに含まれるキーワードおよび要求)に基づいてクライアントコンピューティングデバイス104に送信される1つまたは複数の追加のデジタルコンポーネントを選択できる。1つの例では、入力オーディオ信号は、ストリーミングハウツービデオを開始せよとの要求を含むことができる。デジタルコンポーネントセレクタ120は、追加のデジタルコンポーネント(例えば、広告)を選択できる。追加のデジタルコンポーネントは、デジタルコンポーネントセレクタ120がクライアントコンピューティングデバイス104にハウツービデオをストリーミングするにつれて、クライアントコンピューティングデバイス104に送信できる。追加のデジタルコンポーネントは、第1のクライアントコンピューティングデバイス104からの要求を満足させ得る追加のまたは関連するデジタルコンポーネントプロバイダデバイス106をエンドユーザに知らせることができる。

デジタルコンポーネントセレクタ120は、コンピューティングデバイス104またはローカルデジタルアシスタント134またはコンピューティングデバイス104上で実行するアプリケーションに、入力オーディオ信号中に識別される要求に応答して選択される選択デジタルコンポーネントを提示のために提供できる。このように、デジタルコンポーネントセレクタ120は、クライアントコンピューティングデバイス104からコンテンツ要求を受信し、コンテンツ要求に応じて、デジタルコンポーネントを選択し、そしてクライアントコンピューティングデバイス104に、デジタルコンポーネントを提示のために送信できる。デジタルコンポーネントセレクタ120は、ローカルデジタルアシスタント134に、ローカルデジタルアシスタント134自体またはクライアントコンピューティングデバイス104によって実行されるサードパーティアプリケーションによる提示のために選択デジタルコンポーネントを送信できる。例えば、ローカルデジタルアシスタント134は、選択デジタルコンポーネントに対応するオーディオ信号を再生または出力できる。

データリポジトリ124は、例えば、デジタルコンポーネントプロバイダデバイス106によって提供される、またはコンテンツ選択を容易にするためにデータ処理システム102によって取得もしくは決定されるデジタルコンポーネントを含むことができるコンテンツデータ132を記憶する。例えば、コンテンツデータ132は、例えばコンテンツアイテム、オンライン文書、オーディオ、画像、ビデオ、マルチメディアコンテンツまたはサードパーティコンテンツを含むことができるデジタルコンポーネント(またはデジタルコンポーネントオブジェクト)を含むことができる。デジタルコンポーネントプロバイダデバイス106は、データ処理システム102にノーカットデジタルコンポーネントを提供して、コンテンツデータ132として記憶できる。デジタルコンポーネントプロバイダデバイス106は、データ処理システム102にデジタルコンポーネントの部分を提供できる。

図2は、時間の経過に伴うデジタルコンポーネント200の表現例のブロック図を例示する。デジタルコンポーネント200は、ハウツービデオなどの、ビデオベースのデジタルコンポーネントであることができる。データ処理システムは複数の部分201(1)～201(5)を識別でき、これらは一般に部分201と称することができる。データ処理システムは複数のブレークポイント202(1)～202(4)を識別でき、これらは一般にブレークポイント202と称することができる。データ処理システムは、デジタルコンポーネントの始めにおよび終わりにブレークポイント202を定めることもできる。

部分201の各々は、2つのブレークポイント202間に定めることができる。例えば、部分201(2)は、ブレークポイント202(1)とブレークポイント202(2)との間の時間として定められる。データ処理システムは、アノテーションコンポーネントによって生成されたアノテーションのセットに基づいてブレークポイント202の各々が設けられた時間を選択できる。ブレークポイント202(1)は、デジタルコンポーネント200の指導部分の開始に対応し得る。ブレークポイント202(2)は、デジタルコンポーネント200の最初のハウツーステップに対応し得る。

図3は、音声作動システムにおいてデジタルコンポーネントを制御する方法例300のブロック図を例示する。方法300は、入力信号を受信するステップ(ACT302)を含むことができる。方法300は、入力信号を構文解析するステップ(ACT304)を含むことができる。方法300は、アノテーションのセットを生成するステップ(ACT306)を含むことができる。方法300は、ブレークポイントを識別するステップ(ACT308)を含むことができる。方法300は、入力信号を受信するステップ(ACT310)と入力信号を構文解析するステップ(ACT312)とを含むことができる。方法300は、ブレークポイントを選択するステップ(ACT314)を含むことができる。方法300は、デジタルコンポーネントの一部分を送信するステップ(ACT316)を含むことができる。

上述したように、方法300は、入力信号を受信するステップ(ACT302)を含むことができる。本方法300は、データ処理システムによって実行される自然言語プロセッサコンポーネントによって、入力信号を受信するステップを含むことができる。入力信号は、第1のクライアントデバイスにおいてセンサによって検出される入力オーディオ信号であることができる。センサは、第1のクライアントデバイスのマイクロホンであることができる。例えば、1つまたは複数のプロセッサおよびメモリを含むデータ処理システムによって少なくとも部分的に実行されるデジタルアシスタントコンポーネントが入力オーディオ信号を受信できる。入力オーディオ信号は、デジタルアシスタントによって促進される会話を含むことができる。会話は、1つまたは複数の入力および出力を含むことができる。会話は、オーディオベース、テキストベース、またはオーディオおよびテキストの組合せであることができる。入力オーディオ信号は、テキスト入力、または会話情報を提供できる他の種類の入力を含むことができる。データ処理システムは、会話に対応するセッションのためにオーディオ入力を受信できる。データ処理システムは、オーディオ入力を1つもしくは複数の部分に分けて、またはバルクもしくはバッチアップロード(例えば、送信数を削減するために会話の複数部分が単一の送信においてアップロードされる)として受信できる。

方法300は、入力信号を構文解析するステップ(ACT304)を含むことができる。データ処理システムのNLPコンポーネントは、入力信号を構文解析してデジタルコンポーネント要求を識別できる。NLPコンポーネントは、入力信号中にトリガキーワードを識別できる。例えば、入力オーディオ信号は、「OK、私のバイクの修理の仕方を見せて」を含むことができる。NLPコンポーネントは、入力信号を構文解析して、要求がバイクの修理の仕方を見せるハウツービデオに対してであると判定できる。NLPコンポーネントは、トリガキーワードが再生することであると判定でき、これは、エンドユーザがクライアントコンピューティングデバイスにビデオをストリーミング再生し始めることを望んでいることを示すことができる。クライアントコンピューティングデバイスは、デジタルコンポーネント要求をデータ処理システムにテキスト形式で提供することもできる。例えば、エンドユーザは、クライアントコンピューティングデバイスと関連した物理またはデジタルキーボードを使用して、具体的なビデオまたは他のファイルの要求をタイプできる。

図4も参照すると、特に、図4は、方法300の段階中の第1の時点401でのおよび第2の時点402の間のクライアントコンピューティングデバイス104を例示する。図4に例示されるクライアントコンピューティングデバイス104は、ディスプレイ144上でエンドユーザに提示されるユーザインタフェース例を例示する。ユーザインタフェースは会話型音声ベースのインタフェースである。例えば、ユーザからの入力が、ディスプレイ144の右側の方に始まるように表示され、そしてデータ処理システムからの入力(または応答)が、ディスプレイ144の左側の方に始まって表示される。新たな入力または応答が会話の最下部に-ディスプレイ144の最下部の近くに追加される。新たな入力または応答が追加されるにつれて、より古い入力および応答はディスプレイ144の最上部の方にスクロールされる。例えば、時間402では、時間401で可視の入力の一部分がディスプレイ144の可視部分から外にスクロールされている。

図4に例示されるように、クライアントコンピューティングデバイス104は、句「私は自分のバイクをどのように修理するか?」を含む入力オーディオ信号を検出できる。入力オーディオ信号は、NLPコンポーネント114によって処理されて、入力オーディオ信号のテキストを抽出できる。入力オーディオ信号のテキスト403は、クライアントコンピューティングデバイス104(およびデータ処理システム102)が入力オーディオ信号を理解して正しく処理したという確認としてユーザに表示できる。データ処理システムは、入力オーディオ信号中に識別された要求に応答してデジタルコンポーネント404を選択できる。図4に例示される例では、デジタルコンポーネント404はビデオコンポーネント405およびテキストコンポーネント406を含む。

方法300は、アノテーションのセットを生成するステップ(ACT306)を含むことができる。アノテーションコンポーネント135は、選択されたデジタルコンポーネントに対する1つまたは複数のアノテーションのセットを生成できる。NLPコンポーネント114は、デジタルコンポーネントに含まれる発語またはデジタルコンポーネント中のもしくはそれに関連したクローズドキャプションデータを処理して、アノテーションのセットの1つまたは複数を生成できる。アノテーションコンポーネント135は、デジタルコンポーネント中に識別される物体に基づいて1つまたは複数のアノテーションのセットを生成できる。例えば、データ処理システム102は、デジタルコンポーネント中のビデオフレームに物体認識を行って、デジタルコンポーネント中に物体を識別できる。アノテーションコンポーネント135は、デジタルコンポーネント内の遷移(例えば、ビデオフェードインまたはビデオフェードアウト)に基づいてアノテーションのセットを生成できる。NLPコンポーネント114は、デジタルコンポーネント内の発語またはテキストの意味表現を生成できる。アノテーションコンポーネント135は、意味表現に基づいてアノテーションのセットを生成できる。アノテーションコンポーネント135は、意味表現をクラスタ化して、デジタルコンポーネントのどの部分が具体的なトピックまたはステップに関連するかを判定できる。例えば、バイクの修理の仕方のハウツービデオであるデジタルコンポーネントに対して、アノテーションコンポーネント135は、意味表現を使用して、タイヤの交換を例示するハウツービデオの部分およびバイクのチェーンの交換の仕方を例示するハウツービデオの部分を識別できる。アノテーションコンポーネント135は、タイヤ交換が述べられるハウツービデオの時間部分およびチェーン交換が述べられるハウツービデオの部分を示すアノテーションのセットを生成できる。

方法300は、ブレークポイントを識別するステップ(ACT308)を含むことができる。データ処理システム102は、生成されたアノテーションのセットの1つまたは複数に基づいてブレークポイントを識別できる。ブレークポイントは、ビデオ内のキーフレームの時点を識別できる。ブレークポイントは、シーン遷移、ハウツービデオ中の各ステップの開始、ビデオ中の関心点、ビデオへの物体の進入または退出を識別できる。

ブレークポイントの1つまたは複数の指示がクライアントコンピューティングデバイス104に送信できる。図4も参照すると、特に、ブレークポイントの指示は、デジタルコンポーネント407に含まれてクライアントコンピューティングデバイス104に送信できる。クライアントコンピューティングデバイス104は、デジタルコンポーネント407をレンダリングして、ビデオコンポーネント405に存在するとデータ処理システム102が決定したブレークポイントのリストまたは指示を表示できる。アノテーションコンポーネント135は、ブレークポイントの各々に対するラベルを生成できる。例えば、図4に例示されるように、データ処理システム102は、クライアントコンピューティングデバイス104に、3つのブレークポイントの指示を含んだデジタルコンポーネントを送信した。ブレークポイントは「ステップ1」、「ステップ2」および「ステップ3」とラベル付けされ、そして、それぞれ、ビデオコンポーネント405におけるステップ1、ステップ2およびステップ3の開始時点に対応できる。

方法300は、データ処理システム102が入力オーディオ信号に応答して識別される主要なデジタルコンポーネントに加えて1つまたは複数の補足または追加のデジタルコンポーネントを選択することを含むこともできる。例えば、補足のデジタルコンポーネントは、同じトピックに関連することができ、主要なデジタルコンポーネントに関連する追加情報を提供し、またはエンドユーザの更なる入力を促すことができる。図4も参照すると、特に、データ処理システム102は、クライアントコンピューティングデバイス104に追加のデジタルコンポーネント408を選択および送信した。クライアントコンピューティングデバイス104は、主要なデジタルコンポーネント404と共に追加のデジタルコンポーネント408をレンダリングおよび提示できる。追加のデジタルコンポーネント408は、サービス提供者の広告またはデジタルコンポーネント404に関連するコンテンツであることができる。

方法300は、入力信号を受信するステップ(ACT310)を含むことができる。入力信号は第2の入力オーディオ信号であることができる。第2の入力オーディオ信号は、クライアントコンピューティングデバイス104のセンサ(例えば、マイクロホン)によって検出できる。方法300は、入力信号を構文解析するステップ(ACT312)を含むことができる。NLPコンポーネント114は、第2の入力オーディオ信号を構文解析して、第2の入力オーディオ信号内のキーワード、用語または意味表現を識別できる。例えば、図4も参照すると、第2の入力オーディオ信号は、句「チェーンを修理するのを見せて」を含むことができる。クライアントコンピューティングデバイス104は、第2の入力オーディオ信号からテキスト409を表示できる。NLPコンポーネント114は、第2の入力オーディオ信号を構文解析して、上記の例示的な句の「見せて」などのキーワードを識別できる。NLPコンポーネント114は、キーワード「見せて」に基づいて、ビデオコンポーネント405の具体的な部分をユーザが望んでいることを識別できる。NLPコンポーネント114は、エンドユーザがバイクのチェーンを修理するビデオ中のステップに対応するビデオコンポーネント405の部分を見たいことを識別できる。

方法300は、ブレークポイントを選択するステップ(ACT314)を含むことができる。データ処理システム102は、デジタルコンポーネントの1つまたは複数のアノテーションのセットに基づいて生成された複数のブレークポイントからブレークポイントを選択できる。データ処理システム102は、第2の入力オーディオ信号中に識別されたキーワード、用語または意味表現に基づいてブレークポイントを選択できる。データ処理システム102は、デジタルコンポーネントの各部分または複数のブレークポイントの各々に対応するアノテーションとキーワード、用語または意味表現を照合するまたは関連付けることができる。

図4に例示される例では、ユーザは、句「チェーンを修理するのを見せて」を含む第2の入力オーディオ信号を与えた。第2の入力オーディオ信号は、具体的なブレークポイントの要求を含むことができる。例えば、クライアントコンピューティングデバイス104は、複数のブレークポイントをユーザに提示したデジタルコンポーネント407をレンダリングした。第2の入力オーディオ信号は、エンドユーザに以前に示されていないブレークポイントを識別するまたはそれと関連付けることができる。例えば、図4に例示されるように、第2の入力オーディオ信号「チェーンを修理するのを見せて」は、ブレークポイント:「ステップ1」、「ステップ2」または「ステップ3」の1つの選択でない。第2の入力オーディオ信号がブレークポイントの具体的な選択を含まない場合、データ処理システム102は、デジタルコンポーネントの部分の1つにまたは複数のブレークポイントの1つに対応するアノテーションと第2の入力オーディオ信号中に識別されたキーワード、用語または意味表現を照合するまたは関連付けることができる。例えば、用語「チェーン」は、アノテーションコンポーネント135がチェーンをビデオ中の物体として識別した、またはビデオの一部分中のテキストもしくは発語の意味論的意味がチェーンに対応する、ビデオコンポーネント405の部分と照合するまたは関連付けることができる。

方法300は、デジタルコンポーネントの一部分を送信するステップ(ACT316)を含むことができる。デジタルコンポーネントの送信される部分は、選択されたブレークポイントに対応できる。デジタルコンポーネントの一部分は、クライアントコンピューティングデバイス104にデジタルコンポーネントの送信された部分を自動的に再生またはレンダリング開始させる命令と共にクライアントコンピューティングデバイス104に送信できる。例えば、図4を参照すると、データ処理システム102は、バイクのチェーンの交換の仕方を例示する部分の開始に対応するブレークポイントを選択できる。クライアントデータ処理システム102は、データ処理システムに選択された部分を送信でき、データ処理システム102は、バイクのチェーンの交換の仕方を例示するビデオコンポーネントの部分をレンダリングし始めることができる。デジタルコンポーネントの一部分を送信することは、クライアントコンピューティングデバイス104に選択されたブレークポイントと関連した時間の指示を送信することを含むこともできる。例えば、クライアントコンピューティングデバイス104は、以前にデジタルコンポーネントのエンティティを受信している可能性がある。ブレークポイントが選択されると、ブレークポイントと関連した時間をクライアントコンピューティングデバイス104に送信でき、そしてクライアントコンピューティングデバイス104は、ブレークポイントと関連したビデオにおける時間にスキップできる。

図5は、コンピュータシステム例500のブロック図を例示する。コンピュータシステムまたはコンピューティングデバイス500は、システム100または、データ処理システム102などの、そのコンポーネントを含むことができる、またはそれらを実装するために使用できる。データ処理システム102は、インテリジェントパーソナルアシスタントまたは音声ベースのデジタルアシスタントを含むことができる。コンピューティングシステム500は、情報を通信するためのバス505または他の通信コンポーネント、および情報を処理するための、バス505に結合されるプロセッサ510または処理回路を含む。コンピューティングシステム500は、情報を処理するための、バスに結合される1つまたは複数のプロセッサ510または処理回路を含むこともできる。コンピューティングシステム500は、情報およびプロセッサ510によって実行されることになる命令を記憶するための、バス505に結合される、ランダムアクセスメモリ(RAM)または他のダイナミックストレージデバイスなどのメインメモリ515も含む。メインメモリ515はデータリポジトリ124である、またはそれを含むことができる。メインメモリ515は、プロセッサ510による命令の実行中に位置情報、一時変数または他の中間情報を記憶するためにも使用できる。コンピューティングシステム500は、プロセッサ510のための静的情報および命令を記憶するための、バス505に結合されるリードオンリメモリ(ROM)520または他のスタティックストレージデバイスを更に含んでよい。ソリッドステートデバイス、磁気ディスクまたは光ディスクなどのストレージデバイス525がバス505に結合されて情報および命令を永続的記憶できる。ストレージデバイス525はデータリポジトリ124を含む、またはその一部であることができる。

コンピューティングシステム500は、ユーザに情報を表示するための、液晶ディスプレイまたはアクティブマトリクスディスプレイなどのディスプレイ535にバス505を介して結合されてよい。英数字および他のキーを含むキーボードなどの入力デバイス530が、プロセッサ510に情報およびコマンド選択を通信するためにバス505に結合されてよい。入力デバイス530はタッチスクリーンディスプレイ535を含むことができる。入力デバイス530は、プロセッサ510に方向情報およびコマンド選択を通信するための、かつディスプレイ535上のカーソル移動を制御するための、マウス、トラックボールまたはカーソル方向キーなどのカーソル制御部も含むことができる。ディスプレイ535は、例えば、図1のデータ処理システム102、クライアントコンピューティングデバイス104または他のコンポーネントの一部であることができる。

本明細書に記載されるプロセス、システムおよび方法は、メインメモリ515に含まれる命令の配列をプロセッサ510が実行することに応答してコンピューティングシステム500によって実装できる。そのような命令は、ストレージデバイス525などの別のコンピュータ可読媒体からメインメモリ515へ読み込むことができる。メインメモリ515に含まれる命令の配列の実行により、コンピューティングシステム500に本明細書に記載される例示的なプロセスを行わせる。多重処理配置における1つまたは複数のプロセッサは、メインメモリ515に含まれる命令を実行するためにも利用されてよい。本明細書に記載されるシステムおよび方法と共に、ハードワイヤード回路網がソフトウェア命令の代わりにまたはそれと組み合わせて使用できる。本明細書に記載されるシステムおよび方法は、ハードウェア回路網およびソフトウェアのいかなる具体的な組合せにも限定されない。

コンピューティングシステム例が図5に記載されたが、本明細書に記載される動作を含む対象は、他の種類のデジタル電子回路網で、または本明細書に開示される構造およびそれらの構造的均等物を含め、コンピュータソフトウェア、ファームウェアもしくはハードウェアで、またはそれらの1つもしくは複数の組合せで実装できる。

本明細書で述べられるシステムがユーザについての個人情報を収集する、または個人情報を使用し得る状況に関して、ユーザには、プログラムまたは機能が個人情報(例えば、ユーザのソーシャルネットワーク、ソーシャルアクションもしくはアクティビティ、ユーザの嗜好、またはユーザの位置についての情報)を収集してよいかどうかを管理する、あるいはユーザに更に関連し得るコンテンツサーバまたは他のデータ処理システムからコンテンツを受信するかどうか、またはどのように受信するかを管理する機会が与えられてよい。加えて、或るデータは、それが記憶または使用される前に1つまたは複数の仕方で匿名化され得る結果、パラメータを生成するときに個人識別可能情報は削除される。例えば、ユーザに対して個人識別可能情報が確定できないようにユーザの身元が匿名化され得、または位置情報が得られる程度にユーザの地理的位置が一般化され得(都市、郵便番号または州レベルなど)、したがって、ユーザの特定の位置は確定できない。このように、ユーザは、自分について情報がどのように収集され、そしてコンテンツサーバによって使用されるかを管理し得る。

本明細書に記載される対象および動作は、デジタル電子回路網で、または本明細書に開示される構造およびそれらの構造的均等物を含め、コンピュータソフトウェア、ファームウェアもしくはハードウェアで、またはそれらの1つもしくは複数の組合せで実装できる。本明細書に記載される対象は、1つまたは複数のコンピュータプログラムとして、例えば、データ処理装置による実行のために、またはその動作を制御するために1つまたは複数のコンピュータ記憶媒体に符号化されたコンピュータプログラム命令の1つまたは複数の回路として実装できる。代替的に、または加えて、プログラム命令は、データ処理装置による実行のために適切な受信器装置に送信するための情報を符号化するために発生される人工発生伝搬信号、例えば機械発生電気、光または電磁信号上に符号化できる。コンピュータ記憶媒体は、コンピュータ可読記憶デバイス、コンピュータ可読記憶基板、ランダムもしくはシリアルアクセスメモリアレイもしくはデバイス、またはそれらの1つもしくは複数の組合せであることができる、またはそれに含めることができる。コンピュータ記憶媒体は伝搬信号でないが、コンピュータ記憶媒体は、人工発生伝搬信号に符号化されるコンピュータプログラム命令の供給源または供給先であることができる。コンピュータ記憶媒体は、1つまたは複数の別々の部品または媒体(例えば、複数CD、ディスクまたは他の記憶デバイス)であることもできる、またはそれに含めることもできる。本明細書に記載される動作は、1つまたは複数のコンピュータ可読記憶デバイスに記憶されたまたは他の供給源から受信されたデータに対してデータ処理装置によって行われる動作として実装できる。

用語「データ処理システム」、「コンピューティングデバイス」、「コンポーネント」または「データ処理装置」は、例としてプログラマブルプロセッサ、コンピュータ、システムオンチップもしくはその複数、または以上の組合せを含め、データを処理するための様々な装置、デバイスおよび機械を包含する。装置は、専用論理回路網、例えばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)を含むことができる。装置は、ハードウェアに加えて、当該コンピュータプログラムのための実行環境を作成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、クロスプラットフォームランタイム環境、仮想マシン、またはそれらの1つもしくは複数の組合せを構成するコードも含むことができる。装置および実行環境は、ウェブサービス、分散コンピューティングおよびグリッドコンピューティングインフラストラクチャなどの様々な異なるコンピューティングモデルインフラストラクチャを実現できる。例えば、インタフェース110、デジタルコンポーネントセレクタ120、NLPコンポーネント114、アノテーションコンポーネント135、構文解析コンポーネント116および他のデータ処理システムコンポーネントは、1つまたは複数のデータ処理装置、システム、コンピューティングデバイスまたはプロセッサを含むまたは共有することができる。

コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、アプリ、スクリプトまたはコードとしても知られている)は、コンパイラ型またはインタープリタ型言語、宣言型または手続き型言語を含め、任意の形式のプログラミング言語で書くことができ、そしてスタンドアロンプログラムとして、またはモジュール、コンポーネント、サブルーチン、オブジェクトもしくはコンピューティング環境での使用に適する他のユニットとしてを含め、任意の形式に展開できる。コンピュータプログラムは、ファイルシステムにおけるファイルに相当することができる。コンピュータプログラムは、他のプログラムもしくはデータ(例えば、マークアップ言語文書に記憶される1つもしくは複数のスクリプト)を保持するファイルの一部分に、当該プログラムに専用の単一のファイルに、または複数連係ファイル(例えば、1つもしくは複数のモジュール、サブプログラムもしくはコードの一部分を記憶するファイル)に記憶できる。コンピュータプログラムは、展開されて1つのコンピュータ上で、または1つのサイトに設けられるもしくは複数サイトにわたって分散されて通信ネットワークによって相互接続される複数コンピュータ上で実行できる。

本明細書に記載されるプロセスおよび論理フローは、1つまたは複数のコンピュータプログラム(例えば、データ処理システム102のコンポーネント)を実行して、入力データを演算して出力を生成することによってアクションを行う1つまたは複数のプログラマブルプロセッサによって行うことができる。プロセスおよび論理フローは、専用論理回路網、例えばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によっても行うことができ、かつ装置がそれとしても実装できる。コンピュータプログラム命令およびデータを記憶するのに適するデバイスは、例として半導体メモリデバイス、例えばEPROM、EEPROMおよびフラッシュメモリデバイス、磁気ディスク、例えば内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにCD-ROMおよびDVD-ROMディスクを含め、全ての形態の不揮発性メモリ、媒体およびメモリ素子を含む。プロセッサおよびメモリは専用論理回路網によって補足できる、またはそれに組み込むことができる。

ここで記載される対象は、バックエンドコンポーネントを、例えばデータサーバとして含む、あるいはミドルウェアコンポーネント、例えばアプリケーションサーバを含む、あるいはフロントエンドコンポーネント、例えば、本明細書に記載される対象の実装例とユーザが対話できるグラフィカルユーザインタフェースもしくはウェブブラウザを有するクライアントコンピュータ、または1つもしくは複数のそのようなバックエンド、ミドルウェアもしくはフロントエンドコンポーネントの組合せを含む、コンピューティングシステムにおいて実装できる。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体、例えば通信ネットワークによって相互接続できる。通信ネットワークの例としては、ローカルエリアネットワーク(「LAN」)およびワイドエリアネットワーク(「WAN」)、インターネットワーク(例えば、インターネット)、ならびにピアツーピアネットワーク(例えば、アドホックピアツーピアネットワーク)を含む。

システム100またはシステム500などのコンピューティングシステムはクライアントおよびサーバを含むことができる。クライアントおよびサーバは、一般に互いから離れており、典型的に通信ネットワーク(例えば、ネットワーク105)を通じて対話する。クライアントおよびサーバの関係は、それぞれのコンピュータ上で走っており、互いにクライアント-サーバ関係を有するコンピュータプログラムによって生じる。一部の実装例では、サーバが、クライアントデバイスにデータ(例えば、デジタルコンポーネントを表すデータパケット)を送信する(例えば、クライアントデバイスと対話しているユーザにデータを表示する、およびユーザからユーザ入力を受信する目的で)。クライアントデバイスにおいて生成されるデータ(例えば、ユーザ対話の結果)は、サーバにおいてクライアントデバイスから受信できる(例えば、クライアントコンピューティングデバイス104またはデジタルコンポーネントプロバイダデバイス106からデータ処理システム102によって受信できる)。

図面において動作が特定の順に描かれるが、そのような動作が図示される特定の順にまたは順番に行われる必要はなく、しかも全ての例示された動作が行われる必要もない。本明細書に記載されるアクションは異なる順に行うことができる。

様々なシステムコンポーネントの分離は、全ての実装例において分離を必要とするわけではなく、そして記載されるプログラムコンポーネントを単一のハードウェアまたはソフトウェア製品に含めることができる。例えば、NLPコンポーネント114またはデジタルコンポーネントセレクタ120は、単一のコンポーネント、アプリもしくはプログラム、または1つもしくは複数の処理回路を有する論理デバイス、またはデータ処理システム102の1つもしくは複数のサーバの一部であることができる。

一部の例示的な実装例を記載してきたが、以上が、例として提示されており、例示的であり限定的でないことは明らかである。特に、本明細書に提示される例の多くが方法段階またはシステム要素の具体的な組合せを伴うが、それらの段階およびそれらの要素は同じ目的を達成する他の手段に組み込まれてよい。1つの実装例に関連して述べられる段階、要素および機能が他の実装例において類似の役割から除外されるとは意図されない。

本明細書で使用される語法および術語は説明の目的であり、限定的と考えるべきでない。本明細書における「含む」「備える」「有する」「含有する」「伴う」「を特徴とする」「ことを特徴とする」およびその変形の使用は、その後に列記される項目、その均等物および追加項目の他に、排他的にその後に列記される項目から成る代替実装例を包含するものとされる。1つの実装例では、本明細書に記載されるシステムおよび方法は、記載された要素、段階またはコンポーネントの1つ、2つ以上の各組合せ、または全てから成る。

単数で言及される本明細書におけるシステムおよび方法の実装例または要素または段階のいかなる言及も、複数のこれらの要素を含む実装例を同じく包含でき、そして本明細書におけるいかなる実装例または要素または段階の複数でのいかなる言及も、単一の要素だけを含む実装例を同じく包含できる。単数または複数形での言及は、本開示のシステムまたは方法、それらのコンポーネント、段階または要素を単数または複数構成に限定するとは意図されない。任意の情報、段階または要素に基づいているいかなる段階または要素の言及も、段階または要素が任意の情報、段階または要素に少なくとも部分的に基づく実装例を含み得る。

本明細書に開示されるいかなる実装例も、任意の他の実装例または実施形態と組み合わされてよく、そして「一実装例」、「一部の実装例」、「1つの実装例」等の言及は、必ずしも互いに排他的であるわけではなく、実装例に関連して記載される特定の機能、構造または特性が少なくとも1つの実装例または実施形態に含まれ得ることを示すと意図される。本明細書で使用されるそのような用語は、必ずしも全てが同じ実装例に関しているわけではない。いかなる実装例も、本明細書に開示される態様および実装例と一貫した任意の様式で、包括的または排他的に、任意の他の実装例と組み合わされてよい。

「または」の言及は、「または」を使用して記載されるいかなる用語も、単一の、2つ以上の、および全ての記載された用語のいずれを示してもよいように包括的と解釈されてよい。例えば、「『A』および『B』の少なくとも1つ」の言及は、「A」だけ、「B」だけの他に「A」も「B」もを含むことができる。「備えている」または他のオープンな術語に関連して使用されるそのような言及は追加項目を含むことができる。

図面、詳細な説明または任意の請求項における技術的特徴に参照符号が続く場合、参照符号は、図面、詳細な説明および請求項の理解度を上げるために含まれている。したがって、参照符号もそれらの欠如も、いかなる請求項要素の範囲にもいかなる限定効果も有しない。

本明細書に記載されるシステムおよび方法は、その特性から逸脱することなく他の具体的な形態で具現化され得る。例えば、コンピューティングデバイス104は、サードパーティアプリケーションを起動するときにパッケージ化データオブジェクトを生成し、そしてそれをアプリケーションに転送できる。以上の実装例は、記載されたシステムおよび方法を限定するよりはむしろ例示的である。本明細書に記載されたシステムおよび方法の範囲は、したがって、以上の説明よりはむしろ、添付の請求項によって示され、請求項の等価の意味および範囲内に収まる変更は、そこに包含される。

100 システム
102 データ処理システム
104 クライアントコンピューティングデバイス
105 ネットワーク
106 デジタルコンポーネントプロバイダデバイス
110 インタフェース
112 リモートデジタルアシスタントコンポーネント
114 自然言語プロセッサコンポーネント
116 構文解析コンポーネント
120 デジタルコンポーネントセレクタ
124 データリポジトリ
126 アノテーション
128 ブレークポイント
130 キャプションデータ
132 コンテンツデータ
134 ローカルデジタルアシスタント
135 アノテーションコンポーネント
138 センサ
140 トランスデューサ
142 オーディオドライバ
144 ディスプレイ
200 デジタルコンポーネント
201(1) 部分
201(2) 部分
201(3) 部分
201(4) 部分
201(5) 部分
202(1) ブレークポイント
202(2) ブレークポイント
202(3) ブレークポイント
202(4) ブレークポイント
403 テキスト
404 デジタルコンポーネント
405 ビデオコンポーネント
406 テキストコンポーネント
407 デジタルコンポーネント
408 追加のデジタルコンポーネント
409 テキスト
500 コンピュータシステム
505 バス
510 プロセッサ
515 メインメモリ
520 ROM
525 ストレージデバイス
530 入力デバイス
535 ディスプレイ

Claims

音声作動環境においてデジタルコンポーネントを制御するためのシステムであって、
メモリに結合された1つまたは複数のプロセッサを備えるデータ処理システムを備え、前記データ処理システムが、
クライアントデバイスのセンサを介して取得される第1の入力オーディオ信号を受信することと、
前記第1の入力オーディオ信号を構文解析して、コンテンツに対する要求を識別することと、
前記第1の入力オーディオ信号から識別されたコンテンツに対する前記要求に基づいて、複数のデジタルコンポーネントから、デジタルコンポーネントを識別することであって、前記デジタルコンポーネントが、アノテーションのセットに基づいて生成された複数のブレークポイントにより定められた複数の部分を含む、識別することと、
前記クライアントデバイスの前記センサを介して取得される第2の入力オーディオ信号を受信することであって、前記第2の入力オーディオ信号が、ユーザからの自然言語入力を含む、受信することと、
前記第2の入力オーディオ信号を構文解析し、前記第2の入力オーディオ信号からキーワードを識別することと、
前記第2の入力オーディオ信号から識別された前記キーワードに関連付けられたアノテーションを前記アノテーションのセットから識別することと、
前記デジタルコンポーネントの前記複数の部分から、前記キーワードに関連付けられるとして識別された前記アノテーションに対応する部分を選択することと、
前記複数の部分から選択された前記部分を前記クライアントデバイスに提供することと
を行うためのものである、システム。
前記データ処理システムが、
前記デジタルコンポーネントの少なくとも1つのフレーム、および前記デジタルコンポーネントの前記複数の部分に対応する複数の指示の前記クライアントデバイスによる提示の後に、前記第2の入力オーディオ信号を受信し、
前記クライアントデバイスを介して提示するために、前記複数の部分から選択された前記部分を提供する
ためのものである、請求項1に記載のシステム。
前記データ処理システムが、
前記デジタルコンポーネントの視聴覚コンテンツまたは前記アノテーションのセットのうちの少なくとも1つに基づいて、前記デジタルコンポーネント内の前記複数の部分を定義する複数のブレークポイントを決定することと、
前記キーワードおよび前記アノテーションのセットに基づいて、前記複数のブレークポイントから1つのブレークポイントを識別することであって、前記1つのブレークポイントが、前記デジタルコンポーネントの前記複数の部分からの前記部分に対応する、識別することと
を行うためのものである、請求項1に記載のシステム。
前記データ処理システムが、
前記デジタルコンポーネントの前記複数の部分から選択された前記部分に対応する第2のデジタルコンポーネントを生成し、
前記クライアントデバイスを介して前記部分を提示するために、前記第2のデジタルコンポーネントを提供する
ためのものである、請求項1に記載のシステム。
前記データ処理システムが、
前記デジタルコンポーネント内で前記部分が始まる開始時間を前記アノテーションに基づいて識別し、
前記デジタルコンポーネントにおいて前記開始時間から始まる部分を提示するために、前記クライアントデバイスに前記開始時間の指示を提供する
ためのものである、請求項1に記載のシステム。
前記データ処理システムが、
前記第2の入力オーディオ信号から識別された前記キーワードが、前記デジタルコンポーネントの前記複数の部分のうちの1つの選択を含まないと決定し、
前記キーワードが前記選択を含まないとの前記決定に応答して、前記キーワードと意味論的に関連付けられる前記アノテーションを識別する
ためのものである、請求項1に記載のシステム。
前記データ処理システムが、
前記第2の入力オーディオ信号から識別された前記キーワードが前記デジタルコンポーネントの前記複数の部分の前記部分の選択を含むと決定し、
前記キーワードと関連付けられると決定されるべき前記アノテーションに対して、前記部分を選択する
ためのものである、請求項1に記載のシステム。
前記データ処理システムが、
前記デジタルコンポーネントの視聴覚コンテンツにおいて検出された1つまたは複数のシーン遷移に基づいて、前記デジタルコンポーネントから前記複数の部分を識別する
ためのものである、請求項1に記載のシステム。
前記データ処理システムが、
前記デジタルコンポーネントにおける視聴覚コンテンツ、または前記デジタルコンポーネントに関連付けられるキャプションデータのセットのうちの少なくとも1つに基づいて、前記デジタルコンポーネントのための前記アノテーションのセットを生成することであって、前記アノテーションのセットの各々が、前記複数の部分に対応する意味表現に対応する、生成すること
を行うためのものである、請求項1に記載のシステム。
音声作動環境においてデジタルコンポーネントを制御する方法であって、
データ処理システムによって、クライアントデバイスのセンサを介して取得される第1の入力オーディオ信号を受信するステップと、
前記データ処理システムによって、前記第1の入力オーディオ信号を構文解析して、コンテンツに対する要求を識別するステップと、
前記データ処理システムによって、前記第1の入力オーディオ信号から識別されたコンテンツに対する前記要求に基づいて、複数のデジタルコンポーネントから、デジタルコンポーネントを識別するステップであって、前記デジタルコンポーネントが、アノテーションのセットに基づいて生成された複数のブレークポイントにより定められた複数の部分を含む、ステップ、
前記データ処理システムによって、前記クライアントデバイスの前記センサを介して取得される第2の入力オーディオ信号を受信するステップであって、前記第2の入力オーディオ信号が、ユーザからの自然言語入力を含む、ステップと、
前記データ処理システムによって、前記第2の入力オーディオ信号を構文解析し、前記第2の入力オーディオ信号からキーワードを識別するステップと、
前記データ処理システムによって、前記第2の入力オーディオ信号から識別された前記キーワードに関連付けられたアノテーションを前記アノテーションのセットから識別するステップと、
前記データ処理システムによって、前記デジタルコンポーネントの前記複数の部分から、前記キーワードに関連付けられるとして識別された前記アノテーションに対応する部分を選択するステップと、
前記データ処理システムによって、前記複数の部分から選択された前記部分を前記クライアントデバイスに提供するステップと
を含む、方法。
前記データ処理システムによって、前記デジタルコンポーネントの少なくとも1つのフレーム、および前記デジタルコンポーネントの前記複数の部分に対応する複数の指示の前記クライアントデバイスによる提示の後に、前記第2の入力オーディオ信号を受信するステップと、
前記データ処理システムによって、前記クライアントデバイスを介して提示するために、前記複数の部分から選択された前記部分を提供するステップと
を含む、請求項10に記載の方法。
前記データ処理システムによって、前記デジタルコンポーネントの視聴覚コンテンツまたは前記アノテーションのセットのうちの少なくとも1つに基づいて、前記デジタルコンポーネント内の前記複数の部分を定義する複数のブレークポイントを決定するステップと、
前記データ処理システムによって、前記キーワードおよび前記アノテーションのセットに基づいて、前記複数のブレークポイントから1つのブレークポイントを識別するステップであって、前記1つのブレークポイントが、前記デジタルコンポーネントの前記複数の部分からの前記部分に対応する、識別するステップと
を含む、請求項10に記載の方法。
前記データ処理システムによって、前記デジタルコンポーネントの前記複数の部分から選択された前記部分に対応する第2のデジタルコンポーネントを生成するステップと、
前記データ処理システムによって、前記クライアントデバイスを介して前記部分を提示するために、前記第2のデジタルコンポーネントを提供するステップと
を含む、請求項10に記載の方法。
前記データ処理システムによって、前記デジタルコンポーネント内で前記部分が始まる開始時間を前記アノテーションに基づいて識別するステップと、
前記データ処理システムによって、前記デジタルコンポーネントにおいて前記開始時間から始まる部分を提示するために、前記クライアントデバイスに前記開始時間の指示を提供するステップと
を含む、請求項10に記載の方法。
前記データ処理システムによって、前記第2の入力オーディオ信号から識別された前記キーワードが、前記デジタルコンポーネントの前記複数の部分のうちの1つの選択を含まないと決定するステップと、
前記データ処理システムによって、前記キーワードが前記選択を含まないとの前記決定に応答して、前記キーワードと意味論的に関連付けられる前記アノテーションを識別するステップと
を含む、請求項10に記載の方法。
前記データ処理システムによって、前記第2の入力オーディオ信号から識別された前記キーワードが前記デジタルコンポーネントの前記複数の部分の前記部分の選択を含むと決定するステップと、
前記キーワードと関連付けられると決定されるべき前記アノテーションに対して、前記部分を選択するステップと
を含む、請求項10に記載の方法。
前記データ処理システムによって、前記デジタルコンポーネントの視聴覚コンテンツにおいて検出された1つまたは複数のシーン遷移に基づいて、前記デジタルコンポーネントから前記複数の部分を識別する、請求項10に記載の方法。
前記データ処理システムによって、前記デジタルコンポーネントにおける視聴覚コンテンツ、または前記デジタルコンポーネントに関連付けられるキャプションデータのセットのうちの少なくとも1つに基づいて、前記デジタルコンポーネントのための前記アノテーションのセットを生成するステップであって、前記アノテーションのセットの各々が、前記複数の部分に対応する意味表現に対応する、生成するステップ
を含む、請求項10に記載の方法。