JP2021525410A

JP2021525410A - ネットワーク化システムでのドメイン固有モデルの生成

Info

Publication number: JP2021525410A
Application number: JP2020561855A
Authority: JP
Inventors: サプタルシ・バタチャリア; ザカリア・フィリップス; シュリーダー・マダヴァペッディ; ディヴィッド・メイムーズ; ヴィヴェック・ラオ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-06-14
Filing date: 2019-03-12
Publication date: 2021-09-24
Anticipated expiration: 2039-03-12
Also published as: EP3682341A1; JP2022121523A; US20190384855A1; CN111213136B; US20210209140A1; KR102603717B1; KR20210002619A; KR20230160958A; CN111213136A; JP7095114B2; US10963492B2; US11562009B2; WO2019240857A1

Abstract

本開示は、一般に、相互接続されたネットワークにおけるドメイン固有の音声起動システムの生成を対象とする。システムは、クライアントデバイスにおいて検出された入力信号を受信することができる。入力信号は、音声ベースの入力信号、テキストベースの入力信号、画像ベースの入力信号、または他のタイプの入力信号とすることができる。入力信号に基づいて、システムは、ドメイン固有のナレッジグラフを選択し、選択されたナレッジグラフに基づいて応答を生成することができる。

Description

関連出願の相互参照
本出願は、参照によりその全体が本明細書に組み込まれている、2018年6月14日に出願された「GENERATION OF DOMAIN-SPECIFIC MODELS IN NETWORKED SYSTEM」という名称の米国非仮特許出願第16/008,988号の優先権を主張するものである。

インターネットまたは他のネットワークなどのネットワーク化環境では、ファーストパーティコンテンツプロバイダは、ウェブページ、ドキュメント、アプリケーション、他のリソースなどのリソースにおいて公開プレゼンテーションのための情報を提供することができる。ファーストパーティコンテンツは、ファーストパーティコンテンツプロバイダによって提供されるテキスト、ビデオ、およびオーディオ情報を含み得る。リソースにアクセスするユーザは、リソースに関連する情報に関する追加情報を要求または受信することを希望する場合がある。追加情報を閲覧または受信するには、ユーザは、現在閲覧されているリソースを離れる必要がある。

本開示の少なくとも1つの態様によれば、ネットワーク化システムにおいて自然言語処理モデルを生成するためのシステムは、データ処理システムを含むことができる。データ処理システムは、1つまたは複数のプロセッサおよびメモリを含むことができる。1つまたは複数のプロセッサは、自然言語プロセッサコンポーネントおよびデジタルコンポーネントセレクタを実行することができる。データ処理システムは、自然言語プロセッサコンポーネントによって、およびデータ処理システムのインターフェースを介して、第1のクライアントデバイスにおけるセンサによって検出された入力オーディオ信号を受信することができる。データ処理システムは、自然言語プロセッサコンポーネントによって、入力オーディオ信号における第1の検索要求を識別するために、入力オーディオ信号を構文解析することができる。データ処理システムは、データ処理システムによって実行されるデジタルコンポーネントセレクタによって、少なくとも第1の検索要求に基づいて検索結果を選択することができる。データ処理システムは、デジタルコンポーネントセレクタによって、第1の検索要求に基づいてデジタルコンポーネントを選択することができる。デジタルコンポーネントは、データソースへのリンクを含むことができる。データソースは、複数のエンティティを含むことができる。デジタルコンポーネントは、ナレッジグラフに基づいて応答を要求するための入力インターフェースを含むことができる。

データ処理システムは、インターフェースによって、データソースへのリンクを含むとともにナレッジグラフに関連付けられたデジタルコンポーネントを、検索結果とともに第1のクライアントデバイスに送信することができる。データ処理システムは、インターフェースによって、およびクライアントデバイスによってレンダリングされたデジタルコンポーネントの入力インターフェースを介して、第2の検索要求を受信することができる。データ処理システムは、デジタルコンポーネントセレクタによって、およびナレッジグラフに基づいて、第2の検索要求に基づいて応答を選択することができる。データ処理システムは、インターフェースによって、デジタルコンポーネント内に応答をレンダリングするために、第1のクライアントデバイスに応答を送信することができる。

本開示の少なくとも1つの態様によれば、ネットワーク化システムにおいて自然言語処理モデルを生成するための方法は、データ処理システムによって実行される自然言語プロセッサコンポーネントによって、およびデータ処理システムのインターフェースを介して、第1のクライアントデバイスにおけるセンサによって検出された入力オーディオ信号を受信するステップを含むことができる。この方法は、自然言語プロセッサコンポーネントによって、入力オーディオ信号における第1の検索要求を識別するために、入力オーディオ信号を構文解析するステップを含むことができる。この方法は、データ処理システムによって実行されるデジタルコンポーネントセレクタによって、少なくとも第1の検索要求に基づいて検索結果を選択するステップを含むことができる。この方法は、デジタルコンポーネントセレクタによって、第1の検索要求に基づいてデジタルコンポーネントを選択するステップを含むことができる。デジタルコンポーネントは、データソース、およびデータソースに基づくナレッジグラフに関連付けることができる。この方法は、デジタルコンポーネントセレクタによって、データソース、およびデータソースに基づくナレッジグラフに関連付けられたデジタルコンポーネントを、検索結果とともに第1のクライアントデバイスに送信するステップを含むことができる。

本開示の少なくとも1つの態様によれば、ネットワーク化システムにおいて自然言語処理モデルを生成するためのシステムは、データ処理システムを含むことができる。データ処理システムは、1つまたは複数のプロセッサおよびメモリを含むことができる。1つまたは複数のプロセッサは、デジタルコンポーネントセレクタおよび自然言語プロセッサコンポーネントを実行することができる。データ処理システムは、デジタルコンポーネントセレクタによって、クライアントデバイスからコンテンツ要求を受信することができる。データ処理システムは、デジタルコンポーネントセレクタによって、コンテンツ要求に基づいてデジタルコンポーネントを選択することができる。デジタルコンポーネントは、データソース、およびデータソースに基づくナレッジグラフに関連付けることができる。データ処理システムは、デジタルコンポーネントセレクタによって、デジタルコンポーネントをコンテンツスロットにレンダリングするために、デジタルコンポーネントをクライアントコンピューティングデバイスに送信することができる。データ処理システムは、自然言語プロセッサコンポーネントによって、およびデータ処理システムのインターフェースを介して、クライアントデバイスにおけるセンサによって検出された入力オーディオ信号を受信することができる。データ処理システムは、自然言語プロセッサコンポーネントによって、入力オーディオ信号における要求を識別するために、入力オーディオ信号を構文解析することができる。データ処理システムは、自然言語プロセッサコンポーネントによって、ナレッジグラフに基づいて要求への応答を選択することができる。データ処理システムは、インターフェースによって、クライアントコンピューティングデバイスに応答を送信することができる。

本開示の少なくとも1つの態様によれば、ネットワーク化システムにおいて自然言語処理モデルを生成するための方法は、データ処理システムによって実行されるデジタルコンポーネントセレクタによって、クライアントコンピューティングデバイスからコンテンツ要求を受信するステップを含むことができる。この方法は、デジタルコンポーネントセレクタによって、コンテンツ要求に基づいてデジタルコンポーネントを選択するステップを含むことができる。デジタルコンポーネントは、データソース、およびデータソースに基づくナレッジグラフに関連付けることができる。この方法は、デジタルコンポーネントセレクタによって、デジタルコンポーネントをコンテンツスロットにレンダリングするために、デジタルコンポーネントをクライアントコンピューティングデバイスに送信するステップを含むことができる。この方法は、自然言語プロセッサによって、クライアントデバイスにおけるセンサによって検出された入力オーディオ信号を受信するステップを含むことができる。この方法は、自然言語プロセッサコンポーネントによって、入力オーディオ信号における要求を識別するために、入力オーディオ信号を構文解析するステップを含むことができる。この方法は、自然言語プロセッサコンポーネントによって、ナレッジグラフに基づいて要求への応答を選択するステップを含むことができる。この方法は、インターフェースによって、クライアントコンピューティングデバイスに応答を送信するステップを含むことができる。

これらおよび他の態様および実装形態について、以下で詳細に説明する。上記の情報および以下の詳細な説明は、様々な態様および実装形態の例示的な例を含み、特許請求された態様および実装形態の性質および特徴を理解するための概要またはフレームワークを提供する。図面は、様々な態様および実装形態の例示およびさらなる理解を提供し、本明細書に組み込まれ、その一部を構成する。

添付の図面は、一定の縮尺で描かれることを意図しない。様々な図面における同様の参照番号および名称は、同様の要素を示す。明快のために、すべての構成要素がすべての図面でラベル付けされているとは限らない。

本開示の一例による、ネットワーク化コンピュータ環境においてドメイン固有の自然言語モデルに基づいて応答を生成するための例示的なシステムを示す図である。本開示の一例による、例示的なナレッジグラフを生成し、使用する、図1に示されるシステムのブロック図である。本開示の一例による、ネットワーク化システムにおいてドメイン固有の自然言語処理モデルに基づいて応答を生成するための例示的な方法のブロック図である。本開示の一例による、ネットワーク化システムにおいてドメイン固有の自然言語処理モデルに基づいて応答を生成するための例示的な方法のブロック図である。本開示の一例による、図1に示されるシステムで使用することができる例示的なコンピュータシステムのブロック図である。

以下は、相互接続されたネットワークにおいて音声起動データフローを生成するための方法、装置、およびシステムに関連する様々な概念およびそれらの実装のより詳細な説明である。上記で紹介され、以下でさらに詳細に説明される様々な概念は、多くの方法のいずれかで実装され得る。

本開示は、一般に、相互接続されたネットワークにおけるドメイン固有の音声起動システムの生成を対象とする。システムは、クライアントデバイスにおいて検出された入力信号を受信することができる。入力信号は、音声ベースの入力信号、テキストベースの入力信号、画像ベースの入力信号、または他のタイプの入力信号とすることができる。入力信号は、検索要求などの要求を含むことができる。入力信号の会話型の性質のために、要求は、曖昧、広範、またはコンテキスト不足の可能性がある。システムは、ドメイン固有のナレッジグラフを使用して、要求に対する応答を生成することができる。ドメイン固有のナレッジグラフへのインターフェースは、検索要求に応答して提供される、またはウェブページ上にファーストパーティコンテンツで提供されるデジタルコンポーネントに組み込むことができる。

本技術的解決策のシステムおよび方法は、音声ベースの要求を完了するために必要なネットワーク送信の数を低減することによって、ネットワーク帯域幅の低減を可能にする。本解決策は、デジタルアシスタントが不明確な要求に対する特定の応答を選択できるようにし、要求を完了するために必要なフォローアップ入力オーディオ信号の数を低減することができる。たとえば、第1の検索要求が受信されると、第1の検索要求に基づいて、ドメイン固有のナレッジグラフに関連付けられたデジタルコンポーネントを選択することができる。第2の検索要求が受信されると、ドメイン固有のナレッジグラフを使用して第2の検索要求を処理することができる。ドメイン固有のナレッジグラフは、第2のクエリが曖昧、不明瞭、広範、またはコンテキスト不足である自然言語クエリである場合でも、第2のクエリへの応答を提供するのに役立ち得る。これによって、次に、要求を完了するために必要なフォローアップ入力オーディオ信号の数を低減することができる。いくつかの実施形態では、デジタルコンポーネントは、第2の検索要求を受信することができる入力インターフェースを含み得る。デジタルコンポーネントに入力インターフェースを提供することで、デジタルコンポーネントに関連する第2の検索要求をサブミットするために、ユーザは、現在閲覧されているリソースを離れる必要がなくなり得る。いくつかの実施形態では、デジタルコンポーネントは、デジタルコンポーネント内に第2の検索要求に対する応答をレンダリングするように構成することができる。デジタルコンポーネント内に応答をレンダリングすることで、第2の検索要求に対する応答を閲覧または受信するために、ユーザは、現在閲覧されているリソースを離れる必要がなくなる。

図1は、ネットワーク化コンピュータ環境においてドメイン固有の自然言語モデルに基づいて応答を生成するための例示的なシステム100を示す。システム100は、データ処理システム102を含むことができる。データ処理システム102は、ネットワーク105を介して、1つまたは複数のデジタルコンポーネントプロバイダデバイス106(たとえば、コンテンツプロバイダデバイス)またはクライアントコンピューティングデバイス104と通信することができる。

システム100は、1つまたは複数のネットワーク105を含むことができる。ネットワーク105は、インターネット、ローカル、ワイド、メトロ、または他のエリアネットワークなどのコンピュータネットワーク、イントラネット、衛星ネットワーク、音声またはデータ携帯電話ネットワークなど他の通信ネットワーク、およびそれらの組合せを含むことができる。

データ処理システム102およびクライアントコンピューティングデバイス104は、ネットワーク105を介してデジタルコンポーネントおよびデータソース135にアクセスすることができる。ネットワーク105は、ウェブページ、ウェブサイト、ドメイン(たとえば、ウェブページの集合)、またはユニフォームリソースロケータなどのデータソースにアクセスするために使用され得る。デジタルコンポーネントは、ラップトップ、デスクトップ、タブレット、デジタルアシスタント、携帯情報端末、スマートウォッチ、ウェアラブルデバイス、スマートフォン、ポータブルコンピュータ、またはスピーカなど、少なくとも1つのコンピューティングデバイス104上に提示、出力、レンダリング、または表示され得る。たとえば、ネットワーク105を介して、クライアントコンピューティングデバイス104のユーザは、デジタルコンポーネントプロバイダデバイス106によって提供されるウェブサイト(例示的なデータソース135)にアクセスすることができる。ウェブサイトは、ファーストパーティおよびサードパーティコンテンツなど、1つまたは複数のデジタルコンポーネントを含むことができる。

ネットワーク105は、たとえば、コンテンツ配置または検索エンジン結果システムに関連付けられている、またはサードパーティのデジタルコンポーネントを含むことができるインターネット上で利用可能な情報リソースのサブセットなど、ディスプレイネットワークを含むか、または構成することができる。ネットワーク105は、クライアントコンピューティングデバイス104によって提示、出力、レンダリング、または表示され得るウェブページ、ウェブサイト、ドメイン名、またはユニフォームリソースロケータなどの情報リソースにアクセスするために、データ処理システム102によって使用され得る。

ネットワーク105は、任意のタイプまたは形態のネットワークでもよく、ポイントツーポイントネットワーク、ブロードキャストネットワーク、広域ネットワーク、ローカルエリアネットワーク、電気通信ネットワーク、データ通信ネットワーク、コンピュータネットワーク、ATM(非同期転送モード)ネットワーク、SONET(同期光ネットワーク)ネットワーク、SDH(同期デジタル階層)ネットワーク、ワイヤレスネットワーク、およびワイヤラインネットワークのいずれかを含み得る。ネットワーク105は、赤外線チャネルまたは衛星帯域などのワイヤレスリンクを含み得る。ネットワーク105のトポロジーは、バス、スター、またはリングネットワークトポロジーを含み得る。ネットワークは、高度な携帯電話プロトコル(「AMPS」)、時分割多元接続(「TDMA」)、符号分割多元接続(「CDMA」)、モバイル通信用グローバルシステム(「GSM」)、汎用パケット無線サービス(「GPRS」)、またはユニバーサルモバイル通信システム(「UMTS」)を含む、モバイルデバイス間で通信するために使用される任意のプロトコルを使用する携帯電話ネットワークを含み得る。異なるタイプのデータが異なるプロトコルを介して送信される場合があり、または同じタイプのデータが異なるプロトコルを介して送信される場合がある。

システム100は、少なくとも1つのデータ処理システム102を含むことができる。データ処理システム102は、ネットワーク105を介して、たとえば、コンピューティングデバイス104またはデジタルコンポーネントプロバイダデバイス106と通信するためのプロセッサを有するコンピューティングデバイスなど少なくとも1つの論理デバイスを含むことができる。データ処理システム102は、少なくとも1つの計算リソース、サーバ、プロセッサ、またはメモリを含むことができる。たとえば、データ処理システム102は、少なくとも1つのデータセンターに配置された複数の計算リソースまたはサーバを含むことができる。データ処理システム102は、論理的にグループ化された複数のサーバを含み、分散コンピューティング技法を容易にすることができる。サーバの論理グループは、データセンター、サーバファーム、またはマシンファームと呼ばれる場合がある。サーバは、地理的に分散させることもできる。データセンターまたはマシンファームは、単一のエンティティとして管理されてもよく、または、マシンファームは、複数のマシンファームを含むことができる。各マシンファーム内のサーバは、異種とすることができ、1つまたは複数のサーバまたはマシンは、1つまたは複数のタイプのオペレーティングシステムプラットフォームに従って動作することができる。

マシンファーム内のサーバは、関連するストレージシステムとともに高密度ラックシステムに格納され、エンタープライズデータセンターに配置することができる。たとえば、このようにしてサーバを統合すると、局所的な高性能ネットワーク上にサーバおよび高性能ストレージシステムを配置することによって、システムの管理性、データセキュリティ、システムの物理的セキュリティ、およびシステム性能を向上させる可能性がある。サーバおよびストレージシステムを含むデータ処理システム102の構成要素の全部または一部を集中化し、それらを高度なシステム管理ツールと結合することによって、サーバリソースのより効率的な使用が可能になり、電力および処理要件を節約し、帯域幅の使用を削減する。

クライアントコンピューティングデバイス104は、少なくとも1つのローカルデジタルアシスタント134、少なくとも1つのセンサ138、少なくとも1つのトランスデューサ140、少なくとも1つのオーディオドライバ142、または少なくとも1つのディスプレイ144のうちの1つまたは複数を含み、実行し、それとインターフェースし、あるいはそうでなければ通信することができる。クライアントコンピューティングデバイス104は、グラフィカルまたは物理的キーワードなど1つまたは複数のインターフェースとインターフェースすることができる。

センサ138は、たとえば、カメラ、周囲光センサ、近接センサ、温度センサ、加速度計、ジャイロスコープ、動き検出器、GPSセンサ、位置センサ、マイクロフォン、ビデオ、画像検出、またはタッチセンサを含むことができる。トランデューサ140は、スピーカまたはマイクロフォンを含むか、またはその一部であり得る。オーディオドライバ142は、ハードウェアトランデューサ140へのソフトウェアインターフェースを提供することができる。オーディオドライバ142は、データ処理システム102によって提供されるオーディオファイルまたは他の命令を実行して、トランスデューサ140を制御して、対応する音響波または音波を生成することができる。ディスプレイ144は、発光ダイオード、有機発光ダイオード、液晶ディスプレイ、レーザー、またはディスプレイなどの視覚的表示または光出力を提供するように構成された1つまたは複数のハードウェアまたはソフトウェアコンポーネントを含むことができる。

クライアントコンピューティングデバイス104は、ディスプレイを含んでも含んでいなくてもよい。たとえば、クライアントコンピューティングデバイス104は、マイクロフォンおよびスピーカなどの限定されたタイプのユーザインターフェースを含み得る(たとえば、クライアントコンピューティングデバイス104は、音声駆動またはオーディオベースのインターフェースを含むことができる)。クライアントコンピューティングデバイス104は、スピーカベースのデジタルアシスタントとすることができる。コンピューティングデバイス104の主要なユーザインターフェースは、マイクロフォンおよびスピーカを含むことができる。

クライアントコンピューティングデバイス104は、ローカルデジタルアシスタント134を含み、実行し、それとインターフェースし、またはそうでなければ通信することができる。ローカルデジタルアシスタント134は、クライアントコンピューティングデバイス104において、オーディオ入力信号などの入力信号を検出することができる。入力信号は、要求または検索要求を含むことができる。ローカルデジタルアシスタント134は、データ処理システム102において実行されるリモートデジタルアシスタントコンポーネント112のインスタンスであり得るか、またはリモートデジタルアシスタントコンポーネント112の任意の機能を実行することができる。

ローカルデジタルアシスタント134は、さらなる処理のために、データ処理システム102(たとえば、リモートデジタルアシスタントコンポーネント112)にデータとして用語を送信する前に、1つまたは複数の用語をフィルタリングするか、または用語を変更することができる。ローカルデジタルアシスタント134は、トランスデューサ140によって検出されたアナログオーディオ信号をデジタルオーディオ信号に変換し、デジタルオーディオ信号を運ぶ1つまたは複数のデータパケットを、ネットワーク105を介してデータ処理システム102に送信することができる。ローカルデジタルアシスタント134は、そのような送信を実行するための命令の検出に応答して、入力オーディオ信号の一部またはすべてを運ぶデータパケットを送信することができる。命令は、たとえば、入力オーディオ信号を含むデータパケットをデータ処理システム102に送信するためのトリガキーワードまたは他のキーワードまたは承認を含むことができる。

ローカルデジタルアシスタント134は、データ処理システム102によってホストまたは生成されたナレッジグラフ126のうちの1つまたは複数とインターフェースすることができる。ローカルデジタルアシスタント134は、ナレッジグラフ126へのインターフェースを提供またはレンダリングすることができる。たとえば、ローカルデジタルアシスタント134は、データ処理システム102に送信される入力信号を受信することができる。リモートデジタルコンポーネントアシスタント112は、少なくともナレッジグラフ126に基づいて、要求への応答を決定することができる。ローカルデジタルアシスタント134は、入力信号から構文解析された要求に対する結果または応答を提供するために、ナレッジグラフ126とインターフェースすることができる。

ローカルデジタルアシスタント134は、オーディオの特定の周波数を除去するために、入力オーディオ信号に対して事前フィルタリングまたは前処理を実行することができる。事前フィルタリングは、ローパスフィルタ、ハイパスフィルタ、またはバンドパスフィルタなどのフィルタを含むことができる。フィルタは、周波数領域内で適用することができる。フィルタは、デジタル信号処理技法を使用して適用することができる。フィルタを、人間の音声または人間の発話に対応する周波数を維持しながら、人間の発話の典型的な周波数から外れる周波数を排除するように構成することができる。たとえば、バンドパスフィルタを、第1のしきい値(たとえば、70Hz、75Hz、80Hz、85Hz、90Hz、95Hz、100Hz、または105Hz)未満、および第2のしきい値(たとえば、200Hz、205Hz、210Hz、225Hz、235Hz、245Hz、または255Hz)を超える周波数を削除するように構成することができる。バンドパスフィルタを適用すると、ダウンストリーム処理でのコンピューティングリソースの利用を低減することができる。コンピューティングデバイス104上のローカルデジタルアシスタント134は、入力オーディオ信号をデータ処理システム102に送信する前にバンドパスフィルタを適用することができ、それによってネットワーク帯域幅の利用を低減することができる。しかしながら、コンピューティングデバイス104が利用可能なコンピューティングリソースおよび利用可能なネットワーク帯域幅に基づいて、データ処理システム102がフィルタリングを実行できるようにするために、入力オーディオ信号をデータ処理システム102に提供することがより効率的であり得る。

ローカルデジタルアシスタント134は、自然言語プロセッサに干渉する可能性のある周囲ノイズレベルを低減するために、ノイズ低減技法など追加の前処理または事前フィルタリング技法を適用することができる。ノイズ低減技法は、自然言語プロセッサの精度および速度を向上させ、それによって、データ処理システム102の性能を向上させ、ディスプレイ144を介して提供されるグラフィカルユーザインターフェースのレンダリングを管理することができる。

クライアントコンピューティングデバイス104は、音声クエリをクライアントコンピューティングデバイス104に(センサ138またはトランスデューサ140を介して)オーディオ入力として入力し、データ処理システム102またはデジタルコンポーネントプロバイダデバイス106からクライアントコンピューティングデバイス104のエンドユーザに提示、表示、またはレンダリングするために、オーディオ(または他の)出力を受信するエンドユーザに関連付けることができる。

デジタルコンポーネントは、データ処理システム102またはデジタルコンポーネントプロバイダデバイス106からクライアントコンピューティングデバイス104に提供することができるコンピュータ生成された音声を含むことができる。クライアントコンピューティングデバイス104は、トランデューサ140(たとえば、スピーカ)を介して、コンピュータ生成された音声をエンドユーザにレンダリングすることができる。コンピュータ生成された音声は、実際の人またはコンピュータ生成された言語からの録音を含むことができる。クライアントコンピューティングデバイス104は、コンピューティングデバイス104に通信可能に結合されたディスプレイデバイス144を介して視覚出力を提供することができる。クライアントコンピューティングデバイス104は、キーボードを介してエンドユーザからクエリを受信することができる。クエリは、要求または検索要求とすることができる。

クライアントコンピューティングデバイス104は、コンピューティングデバイス104のセンサ138(たとえば、マイクロフォン)によって検出された入力オーディオ信号を受信することができる。入力オーディオ信号または他の形式の入力信号は、たとえば、クエリ、質問、コマンド、命令、要求、検索要求、または話された言語で提供される他のステートメントを含むことができる。

クライアントコンピューティングデバイス104は、デジタルアシスタントデバイスを含む、実行する、またはデジタルアシスタントデバイスと呼ぶことができる。デジタルアシスタントデバイスは、コンピューティングデバイス104の1つまたは複数の構成要素を含むことができる。デジタルアシスタントデバイスは、データ処理システム102からディスプレイ出力を受信し、ディスプレイ132上にディスプレイ出力をレンダリングすることができるグラフィックスドライバを含むことができる。グラフィックスドライバは、グラフィックスまたは視覚出力がディスプレイ144上に表示される方法を制御または強化するハードウェアまたはソフトウェアコンポーネントを含むことができる。グラフィックスドライバは、たとえば、グラフィックコンポーネントがコンピューティングデバイス104(またはデジタルアシスタント)の残りとどのように動作するかを制御するプログラムを含むことができる。ローカルデジタルアシスタント134は、入力オーディオ信号をフィルタリングして、フィルタリングされた入力オーディオ信号を作成し、フィルタリングされた入力オーディオ信号をデータパケットに変換し、データパケットを1つまたは複数のプロセッサおよびメモリを含むデータ処理システムに送信することができる。

デジタルアシスタントデバイスは、オーディオドライバ142およびスピーカコンポーネント(たとえば、トランデューサ140)を含むことができる。プリプロセッサコンポーネント140は、表示出力の指示を受信し、オーディオドライバ142に出力オーディオ信号を生成するように命令して、スピーカコンポーネント(たとえば、トランデューサ140)に、表示出力の指示に対応するオーディオ出力を送信させることができる。

システム100は、少なくともデジタルコンポーネントプロバイダデバイス106を含み、それにアクセスし、またはそうでなければそれと対話することができる。デジタルコンポーネントプロバイダデバイス106は、クライアントコンピューティングデバイス104またはデータ処理システム102にデジタルコンポーネントを提供することができる1つまたは複数のサーバを含むことができる。デジタルコンポーネントプロバイダデバイス106は、データソース135を提供するか、またはそれに関連付けることができる。データソース135は、ウェブサイトまたはランディングページとすることができる。デジタルコンポーネントプロバイダデバイス106によって提供されるデジタルコンポーネントは、デジタルコンポーネントプロバイダデバイス106によって提供されるデータソース135に関連付けることができる。たとえば、デジタルコンポーネントは、デジタルコンポーネントプロバイダデバイス106によって提供される、ランディングページなどのデータソース135へのリンクを含むサードパーティコンテンツとすることができる。

デジタルコンポーネントプロバイダデバイス106またはその構成要素は、データ処理システム102と統合され得るか、またはデータ処理システム102によって少なくとも部分的に実行され得る。デジタルコンポーネントプロバイダデバイス106は、たとえば、コンピューティングデバイス104、データ処理システム102、またはデジタルコンポーネントプロバイダデバイス106と、ネットワーク105を介して通信するためのプロセッサを有するコンピューティングデバイスなど少なくとも1つの論理デバイスを含むことができる。デジタルコンポーネントプロバイダデバイス106は、少なくとも1つの計算リソース、サーバ、プロセッサ、またはメモリを含むことができる。たとえば、デジタルコンポーネントプロバイダデバイス106は、少なくとも1つのデータセンターに配置された複数の計算リソースまたはサーバを含むことができる。

デジタルコンポーネントプロバイダデバイス106は、出力デジタルコンポーネントまたは視覚出力デジタルコンポーネントとしてクライアントコンピューティングデバイス104によって提示するためのオーディオ、視覚、またはマルチメディアベースのデジタルコンポーネントを提供することができる。「デジタルコンポーネント」という用語は、一般に、クライアントコンピューティングデバイス104によってレンダリングすることができるデータを指す。デジタルコンポーネントは、ウェブサイト、ウェブページ、アプリケーション、テキストベースのコンテンツ、オーディオベースのコンテンツ、ビデオベースのコンテンツ、他のデジタルドキュメント、またはそれらの任意の組合せとすることができる。デジタルコンポーネントは、デジタルコンテンツであるか、またはデジタルコンテンツを含むことができる。デジタルコンポーネントは、デジタルオブジェクトであるか、またはデジタルオブジェクトを含むことができる。デジタルコンポーネントは、複数のデジタルコンテンツアイテムまたは他のデジタルコンポーネントを含むことができる。たとえば、デジタルコンポーネントは、広告やサードパーティからのコンテンツなど、他のデジタルコンポーネントを含むウェブサイトとすることができる。デジタルコンポーネントは、ローカルデジタルアシスタント134のインスタンスを含むことができ、またはクライアントコンピューティングデバイス104に、ローカルデジタルアシスタント134のインスタンスを実行させることができる。

デジタルコンポーネントプロバイダデバイス106は、ネットワーク105を介してクライアントコンピューティングデバイス104にデジタルコンポーネントを提供し、データ処理システム102をバイパスすることができる。デジタルコンポーネントプロバイダデバイス106は、ネットワーク105を介してクライアントコンピューティングデバイス104およびデータ処理システム102にデジタルコンポーネントを提供することができる。たとえば、デジタルコンポーネントプロバイダデバイス106は、デジタルコンポーネントをデータ処理システム102に提供することができ、データ処理システム102は、デジタルコンポーネントを記憶し、クライアントコンピューティングデバイス104によって要求されると、デジタルコンポーネントをクライアントコンピューティングデバイス104に提供することができる。デジタルコンポーネントは、データソース135からとすることができる。データソースは、ウェブページ、ランディングページ、または他のコンテンツをホストするサーバとすることができる。

データ処理システム102は、少なくとも1つの計算リソースまたはサーバを含むことができる。データ処理システム102は、少なくとも1つのインターフェース110を含む、それとインターフェースする、またはそうでなければ通信することができる。データ処理システム102は、少なくとも1つのリモートデジタルアシスタントコンポーネント112を含み、それとインターフェースし、またはそうでなければ通信することができる。リモートデジタルアシスタントコンポーネント112は、少なくとも1つのNLPコンポーネント114、および少なくとも1つのドメインプロセッサ117を含み、それとインターフェースし、またはそうでなければ通信することができる。データ処理システム102は、少なくとも1つのデジタルコンポーネントセレクタ120を含み、それとインターフェースし、またはそうでなければ通信することができる。データ処理システム102は、少なくとも1つのデータリポジトリ124を含み、それとインターフェースし、またはそうでなければ通信することができる。少なくとも1つのデータリポジトリ124は、1つまたは複数のデータ構造またはデータベースに、ナレッジグラフ126およびコンテンツデータ132を含むか、または記憶することができる。

データ処理システム102の構成要素は各々、データベースリポジトリまたはデータベース124と通信するように構成されたプログラマブル論理アレイエンジンまたはモジュールなど、少なくとも1つの処理ユニットまたは他の論理デバイスを含むことができる。データ処理システム102の構成要素は、別の構成要素、単一の構成要素、または複数のデータ処理システム102の一部とすることができる。システム100およびデータ処理システム102などその構成要素は、1つもしくは複数のプロセッサ、論理デバイス、または回路などのハードウェア要素を含むことができる。

データ処理システム102は、インターフェース110を含むことができる。インターフェース110は、たとえば、データパケットを使用して情報を送受信するように構成、構築、または動作することができる。インターフェース110は、ネットワークプロトコルなど1つまたは複数のプロトコルを使用して情報を送受信することができる。インターフェース110は、ハードウェアインターフェース、ソフトウェアインターフェース、ワイヤードインターフェース、またはワイヤレスインターフェースを含むことができる。インターフェース110は、あるフォーマットから別のフォーマットへのデータの変換またはフォーマットを容易にすることができる。たとえば、インターフェース110は、ソフトウェアコンポーネントなど、様々な構成要素間で通信するための定義を含むアプリケーションプログラミングインターフェース(「API」)を含むことができる。

データ処理システム102のリモートデジタルアシスタントコンポーネント112は、入力信号を含むデータパケットを受信または取得するために、NLPコンポーネント114を実行または動作させることができる。入力信号は、コンピューティングデバイス104のセンサ138によって検出された入力オーディオ信号、または入力されたテキストなど、他の入力信号を含むことができる。たとえば、入力信号は、キーボードまたは他のテキスト入力システムを介したユーザによるクライアントコンピューティングデバイス104へのテキスト入力を含むことができる。データパケットは、デジタルファイルを提供することができる。NLPコンポーネント114は、入力信号を含むデジタルファイルまたはデータパケットを受信または取得し、入力信号を構文解析することができる。たとえば、NLPコンポーネント114は、人間とコンピュータとの間の対話を可能にすることができる。NLPコンポーネント114は、入力信号をテキストに変換し、自然言語を理解して、データ処理システム102が人間または自然言語の入力から意味を導出することを可能にするための技法で構成することができる。

NLPコンポーネント114は、統計的機械学習などの機械学習に基づく技法を含むか、またはそれで構成することができる。NLPコンポーネント114は、決定ツリー、統計モデル、または確率モデルを利用して、入力オーディオ信号を構文解析することができる。NLPコンポーネント114は、たとえば、名前付きエンティティ認識(たとえば、テキストのストリームが与えられると、テキスト内の項目が人や場所などの名前にマップされるか、およびそのような各名前のタイプが、人、場所(たとえば「家」)、組織など、何であるかを決定する)、自然言語の生成(たとえば、コンピュータデータベースまたは意味的意図からの情報を理解可能な人間の言語に変換する)、自然言語の理解(たとえば、テキストを、コンピュータモジュールが操作できる1次の論理構造など、より形式的な表現に変換する)、機械翻訳(たとえば、テキストをある人間の言語から別の言語に自動的に翻訳する)、形態学的セグメンテーション(たとえば、単語を個々の形態素に分割し、形態素のクラスを識別する、これは、考慮されている言語の単語の形態論または構造の複雑さに基づいて困難である可能性がある)、質問への回答(たとえば、人間の言語への回答の決定、これは、具体的なものであっても、オープンエンドのものであってもよい)、または意味処理(たとえば、単語を識別し、識別された単語を同様の意味を持つ他の単語に関連付けるためにその意味を符号化した後に発生する可能性のある処理)などの機能を実行することができる。

NLPコンポーネント114は、入力信号を、記憶された代表的なオーディオ波形のセット(たとえば、データリポジトリ124内の)と比較し、最も近い一致を選択することによって、入力オーディオ信号を認識されたテキストに変換することができる。オーディオ波形のセットは、データリポジトリ124またはデータ処理システム102からアクセス可能な他のデータベースに記憶することができる。代表的な波形は、ユーザの多数のセットにわたって生成することができ、ユーザからの音声サンプルで補強され得る。オーディオ信号が認識されたテキストに変換された後、NLPコンポーネント114は、テキストを、たとえば、ユーザ全体のトレーニングを介して、または手動指定を介して、データ処理システム102がサービスできるアクションに関連付けられた単語と照合する。NLPコンポーネント114は、画像またはビデオ入力をテキストまたはデジタルファイルに変換することができる。NLPコンポーネント114は、画像またはビデオ入力を処理、分析、または解釈して、アクションを実行し、要求を生成し、またはデータ構造を選択または識別することができる。

NLPコンポーネント114は、入力信号を取得することができる。入力信号から、NLPコンポーネント114は、少なくとも1つの要求を識別することができる。要求は、意図またはデジタルコンポーネントを示すことができ、あるいは検索要求とすることができる。要求は、明示的に述べられた情報についての要求とすることができる。たとえば、要求は、「カーモデルXは何色ですか?」という質問であり得る。意図を導出することも、明示的に述べないこともできる。たとえば、入力信号「カーモデルX2018」では、入力信号は、ユーザが2018カーモデルXに関する情報を望んでいることを明示的に述べていないが、NLPコンポーネント114は意図を導出することができる。

NLPコンポーネント114は、入力信号を構文解析して、入力信号から要求を識別、決定、検索、またはそうでなければ取得することができる。たとえば、NLPコンポーネント114は、意味処理技法を入力信号に適用して、入力信号内の検索要求を識別することができる。

データ処理システム102は、ドメインプロセッサ117のインスタンスを含むか、またはそれとインターフェースすることができる。ドメインプロセッサ117は、ドメインプロセッサ117が実行されるコンピューティングデバイスがナレッジグラフ126を生成することを可能にするように構成された、任意のスクリプト、ファイル、プログラム、アプリケーション、命令のセット、またはコンピュータ実行可能コードであり得る。以下でより詳細に説明するように、「ナレッジグラフ」は、複数のエンティティ間の関係を表すデータ構造(たとえば、グラフデータ構造)であり得る。エンティティは、データソースに関連付けられた(たとえば、データソースによって記憶および/または参照されている)任意のデータとすることができる。

ドメインプロセッサ117は、ドメイン固有のナレッジグラフ126を生成することができる。たとえば、ドメインプロセッサ117は、異なる特定のウェブサイト、ドメイン、データの集合、他のデータソース135についてのナレッジグラフ126を生成することができる。ドメインプロセッサ117は、データ処理システム102がデジタルコンポーネントプロバイダデバイス106から受信するデジタルコンポーネントの各々についてナレッジグラフ126を生成することができる。ドメインプロセッサ117は、ナレッジグラフ126をデータリポジトリ124に保存することができる。ドメインプロセッサ117は、ナレッジグラフ126をリレーショナルデータベースに保存することができる。

特定のドメイン下のウェブサイトなどのデータソース135は、一般にエンティティと呼ばれ得る用語、フレーズ、または他のデータを含むことができる。所与のデータソース135のナレッジグラフ126は、データソース135内のエンティティを表すノードを含むことができる。

ナレッジグラフ126は、ナレッジグラフ126内の関連するノードを接続するエッジまたはリンクを含むことができる。エッジは、エンティティ間の関係を表すことができる。たとえば、エッジによってリンクされた2つのノードは、ノードによって表されるエンティティが関連していることを示すことができる。ドメインプロセッサ117は、エッジに重みを割り当てることができる。重みは、リンクによって接続されたノード間の関係の程度を示すことができる。たとえば、重みが大きいエッジは、ノードによって表される2つのエンティティが、重みが比較的小さいエッジによって接続されている2つのエンティティよりも相互に関連していることを示すことができる。エッジは、エッジによって接続されたノードによって表されるエンティティ間の意味関係を表すことができる。ドメインプロセッサ117は、データソースのテキスト、フレーズ、または他のエンティティをNLPコンポーネント114で処理して、ナレッジグラフ126を生成することができる。

ドメインプロセッサ117は、データソースのエンティティに基づいてナレッジグラフ126を生成することができる。データソースは、デジタルコンポーネントに関係する、または関連付けることもできる。たとえば、デジタルコンポーネントは、ウェブページのファーストパーティコンテンツとともに表示されるサードパーティコンテンツとすることができる。デジタルコンポーネントは、ランディングページ、ウェブサイト、または他のデータソースへのリンクを含むことができる。ドメインプロセッサ117は、デジタルコンポーネントがリンクするデータソース(たとえば、ランディングページ)のナレッジグラフ126を生成することができる。ドメインプロセッサ117は、データソースの指示に関連して、ナレッジグラフ126をデータリポジトリ124に記憶することができる。ドメインプロセッサ117は、レンダリングのためにクライアントコンピューティングデバイス104に送信されるデジタルコンポーネントの各々について、異なるナレッジグラフ126を生成することができる。

デジタルコンポーネントのナレッジグラフ126は、1次データのみから生成することができる。たとえば、ナレッジグラフ126は、デジタルコンポーネントに関連付けられたデータソース135に含まれるエンティティおよび他のデータのみに基づいて生成することができる。デジタルコンポーネントのナレッジグラフ126は、1次および2次データから生成することができる。1次データは、デジタルコンポーネントに関連付けられたデータソース135に含まれるエンティティおよび他のデータとすることができる。2次データは、異なるデータソース135またはウェブ検索に関連付けられたエンティティおよび他のデータとすることができる。ドメインプロセッサ117は、1次データおよび2次データに異なる重み係数を割り当てることができる。たとえば、1次データのエンティティは、2次データのエンティティと比較したとき、2つのノード間のエッジ強度に比較的大きい影響を与える可能性がある。

デジタルコンポーネントプロバイダデバイス106は、デジタルコンポーネントをデータ処理システム102に送信することができる。データ処理システム102は、デジタルコンポーネントをコンテンツデータ132として記憶することができる。デジタルコンポーネントは、ウェブサイトのサードパーティコンテンツとして使用することができる。デジタルコンポーネントは、ユニフォームリソースロケータあるいはランディングページまたは他のデータソース135へのリンクを含むことができる。データ処理システム102がデジタルコンポーネントプロバイダデバイス106からデジタルコンポーネントを受信すると、ドメインプロセッサ117は、デジタルコンポーネントによってリンクされたデータソース135のナレッジグラフ126を生成することができる。ドメインプロセッサ117は、データソースまたはデジタルコンポーネントの指示に関連して、ナレッジグラフ126をデータリポジトリ124に記憶することができる。

ドメインプロセッサ117は、ナレッジグラフ126へのインターフェースを生成し、デジタルコンポーネントに含めることができる。インターフェースは、ローカルデジタルアシスタント134のインスタンスをクライアントコンピューティングデバイス104上で実行させるリンクまたはディープリンクであり得る。たとえば、クライアントコンピューティングデバイス104は、要求に応答してデジタルコンポーネントを受信することができる。デジタルコンポーネントをレンダリングすることによって、クライアントコンピューティングデバイス104は、ローカルデジタルアシスタント134のインスタンスを起動または実行することができる。レンダリングされたデジタルコンポーネントに提示された要求への応答は、ナレッジグラフ126に基づいて生成することができる。

データ処理システム102は、デジタルコンポーネントセレクタ120のインスタンスを実行または動作させることができる。デジタルコンポーネントセレクタ120は、クライアントコンピューティングデバイス104によって処理され、ディスプレイ144またはトランスデューサ140(たとえば、スピーカ)を介してユーザに提示され得るテキスト、文字列、文字、ビデオファイル、画像ファイル、またはオーディオファイルを含むデジタルコンポーネントを選択することができる。

デジタルコンポーネントセレクタ120は、入力オーディオ信号においてNLPコンポーネント114によって識別される要求に応答するか、またはそれに関連付けられたデジタルコンポーネントを選択することができる。デジタルコンポーネントセレクタ120は、どのデジタルコンポーネントプロバイダデバイス106が要求を満たすべきであるか、または満たすことができるかを選択することができ、要求をデジタルコンポーネントプロバイダデバイス106に転送することができる。たとえば、データ処理システム102は、デジタルコンポーネントプロバイダデバイス106とクライアントコンピューティングデバイス104との間のセッションを開始して、デジタルコンポーネントプロバイダデバイス106がデジタルコンポーネントをクライアントコンピューティングデバイス104に送信できるようにすることができる。デジタルコンポーネントセレクタ120は、デジタルコンポーネントプロバイダデバイス106にデジタルコンポーネントを要求することができる。デジタルコンポーネントプロバイダデバイス106は、デジタルコンポーネントをデータリポジトリ124に記憶することができるデータ処理システム102にデジタルコンポーネントを提供することができる。デジタルコンポーネントの要求に応答して、デジタルコンポーネントセレクタ120は、データリポジトリ124からデジタルコンポーネントを取り出すことができる。

デジタルコンポーネントセレクタ120は、リアルタイムコンテンツ選択プロセスを介して複数のデジタルコンポーネントを選択することができる。デジタルコンポーネントセレクタ120は、デジタルコンポーネントをスコアリングおよびランク付けし、デジタルコンポーネントのスコアまたはランクに基づいて、複数のデジタルコンポーネントからデジタルコンポーネントを選択することができる。デジタルコンポーネントセレクタ120は、入力オーディオ信号(またはそこに含まれるキーワードおよび要求)に基づいて、第2のクライアントコンピューティングデバイス104に送信される1つまたは複数の追加のデジタルコンポーネントを選択することができる。デジタルコンポーネントセレクタ120は、異なるデジタルコンポーネントプロバイダデバイス106に関連付けられた追加のデジタルコンポーネント(たとえば、広告)を選択することができる。

デジタルコンポーネントセレクタ120は、入力信号において識別される要求に応答して選択されるデジタルコンポーネントを提示のためにコンピューティングデバイス104、またはローカルデジタルアシスタント134、またはコンピューティングデバイス104上で実行されるアプリケーションに提供することができる。したがって、デジタルコンポーネントセレクタ120は、クライアントコンピューティングデバイス104からコンテンツ要求を受信し、コンテンツ要求に応答してデジタルコンポーネントを選択し、提示するためのデジタルコンポーネントをクライアントコンピューティングデバイス104に送信することができる。デジタルコンポーネントセレクタ120は、ローカルデジタルアシスタント134自体またはクライアントコンピューティングデバイス104によって実行されるサードパーティアプリケーションによる提示のための選択されたデジタルコンポーネントをローカルデジタルアシスタント134に送信することができる。たとえば、ローカルデジタルアシスタント134は、選択されたデジタルコンポーネントに対応するオーディオ信号を再生または出力することができる。

データリポジトリ124は、たとえば、コンテンツ選択を容易にするために、デジタルコンポーネントプロバイダデバイス106によって提供されるか、またはデータ処理システム102によって取得もしくは決定されるデジタルコンポーネントを含むことができるコンテンツデータ132を記憶することができる。コンテンツデータ132は、たとえば、コンテンツアイテム、オンラインドキュメント、オーディオ、画像、ビデオ、マルチメディアコンテンツ、またはサードパーティコンテンツを含むことができるデジタルコンポーネント(またはデジタルコンポーネントオブジェクト)を含むことができる。コンテンツデータ132は、クライアントコンピューティングデバイス104(またはそのエンドユーザ)によって提供されるデジタルコンポーネント、データ、または情報を含むことができる。たとえば、コンテンツデータ132は、ユーザ選好、ユーザによって記憶されたユーザ情報、または以前の入力オーディオ信号からのデータを含むことができる。

図2は、応答を生成するために例示的なナレッジグラフ126を生成および使用するシステム100のブロック図を示す。図2に示されるように、システム100は、クライアントコンピューティングデバイス104を含む。クライアントコンピューティングデバイス104は、データ処理システム102およびデジタルコンポーネントプロバイダデバイス106と通信している。デジタルコンポーネントプロバイダデバイス106は、データソース135をホストし、それにサービスし、またはそうでなければそれに関連付けることができる。図2に示されるように、データソース135は、ランディングページであり得る。ランディングページは、デジタルコンポーネントに関連付けられているウェブサイトとすることができる。たとえば、デジタルコンポーネントは、ランディングページへのリンクを含むことができる。デジタルコンポーネントは、ファーストパーティコンテンツを含むウェブサイト上に提示されるサードパーティコンテンツとすることができる。この例では、デジタルコンポーネントは、ACMEコーヒーメーカーに関連する画像、ビデオ、オーディオクリップ、またはテキストとすることができ、データソース135は、ACMEコーヒーメーカーのランディングページとすることができる。

デジタルコンポーネントプロバイダデバイス106は、デジタルコンポーネント(この例ではACMEコーヒーメーカー用)をデータ処理システム102に提供することができる。デジタルコンポーネントセレクタ120は、デジタルコンポーネントを受信し、デジタルコンポーネントをデータリポジトリ124に記憶することができる。データ処理システム102は、デジタルコンポーネントに基づいてナレッジグラフ126を生成することができる。データ処理システム102は、デジタルコンポーネントに関連付けられたデータソース135に基づいてナレッジグラフ126を生成することができる。たとえば、ドメインプロセッサ117は、NLPコンポーネント114を介して、デジタルコンポーネントに関連付けられたランディングページのテキストまたは他のコンテンツを処理することができる。データ処理システム102は、ナレッジグラフ126をデータリポジトリ124に記憶することができる。デジタルコンポーネントプロバイダデバイス106は、デジタルコンポーネントに関連付けられたナレッジグラフ126を生成し、ナレッジグラフ126をデジタルコンポーネントとともにデータ処理システム102に提供することができる。

図2に示される例では、クライアントコンピューティングデバイス104は、携帯電話であり得る。クライアントコンピューティングデバイス104は、入力信号200を受信することができる。クライアントコンピューティングデバイス104は、入力信号を入力オーディオ信号として受信することができる。たとえば、ユーザは、クライアントコンピューティングデバイス104に要求を話すことができる。NLPコンポーネント114のインスタンス(クライアントコンピューティングデバイス104またはデータ処理システム102において実行される)は、入力信号を構文解析して、入力信号のテキストを決定することができる。クライアントコンピューティングデバイス104は、キーボードを介して入力信号を受信することができる。たとえば、ユーザは、要求を入力することができる。NLPコンポーネント114は、入力信号を構文解析して、入力信号200内の検索要求などの要求を識別することができる。図2に示されるように、NLPコンポーネント114は、入力信号200を構文解析して、「最も近いコーヒーショップはどこですか?」として検索要求を識別することができる。

クライアントコンピューティングデバイス104は、入力信号をデータ処理システム102に送信することができる。データ処理システム102は、入力信号から構文解析された検索要求への応答を選択することができる。データ処理システム102は、レンダリングのために検索応答をクライアントコンピューティングデバイス104に送信することができる。図2に示されるように、応答を、検索応答202としてユーザにレンダリングすることができる。検索応答202を、テキスト、画像、ビデオ、オーディオ、またはそれらの任意の組合せとしてレンダリングすることができる。たとえば、図2に示されるように、検索応答202はテキストとしてレンダリングされる。クライアントコンピューティングデバイス104がスピーカベースのデジタルアシスタントであるとき、検索応答202を、音声出力信号としてレンダリングすることができる。

検索要求に基づいて、データ処理システム102のデジタルコンポーネントセレクタ120は、デジタルコンポーネント204を選択することができる。データ処理システム102は、デジタルコンポーネント204をクライアントコンピューティングデバイス104に送信することができる。クライアントコンピューティングデバイス104は、デジタルコンポーネント204を検索応答202とともにユーザに表示または提示するために、デジタルコンポーネント204をレンダリングすることができる。デジタルコンポーネント204は、別のデジタルコンポーネント206に含まれ得る。デジタルコンポーネント206は、ローカルデジタルアシスタント134によって実行することができる。デジタルコンポーネント206は、ナレッジグラフ126へのインターフェース208を含むことができる。インターフェース208は、テキストまたはオーディオベースの入力信号などの入力信号を受信するように構成され得る。インターフェース208は、入力インターフェース208と呼ばれ得る。デジタルコンポーネント204または206は、ランディングページ135へのリンクを含むことができる。デジタルコンポーネント204または206を選択すると、クライアントコンピューティングデバイス104は、ランディングページ135のリンクで識別されたアドレスをロードするウェブブラウザをアクティブ化することができる。

インターフェース208は、オーディオベースまたはテキストベースの入力信号などの入力信号を受け入れることができる。クライアントコンピューティングデバイス104は、インターフェース208を介して入力信号を受信し、入力信号をデータ処理システム102に送信することができる。入力信号を受信するために、インターフェース208は、ユーザによってアクティブ化され得る。たとえば、ユーザは、デジタルコンポーネント206またはインターフェース208を選択、クリック、またはタップして、インターフェース208が入力信号の受信を開始するようにインターフェース208をアクティブ化することができる。インターフェース208をアクティブ化することによって、入力信号200が受信されたインターフェースではなく、入力信号がインターフェース208に行くようにすることができる。ローカルデジタルアシスタント134は、入力信号がインターフェース208に提供されるべきか、またはデータ処理システム102に提供されるべきか(入力信号200がそうであったように)を決定することができる。たとえば、ローカルデジタルアシスタント134は、NLPコンポーネント114のローカルインスタンスで入力信号を処理し、入力信号から構文解析された1つまたは複数の用語に基づいて、およびデジタルコンポーネント204のコンテキストまたはキーワードに基づいて、入力信号をインターフェース208に提供することができる。

データ処理システム102は、インターフェース208を介して入力信号を受信するとき、ナレッジグラフ126に基づいて応答を生成することができる。たとえば、NLPコンポーネント114は、入力信号を処理して、入力信号における要求を構文解析することができる。要求は、デジタルコンポーネント204に関連する追加情報についての要求とすることができる。たとえば、図2に示される例では、要求は、ACMEコーヒーメーカーに関する追加情報を求めることができる。データ処理システム102は、デジタルコンポーネント204に関連付けられたナレッジグラフ126を使用して、要求への応答を生成することができる。たとえば、ナレッジグラフ126は、応答が、ランディングページ135内に含まれるエンティティ、テキスト、および他のデータに固有の応答を提供するように、デジタルコンポーネント204に関連付けられたランディングページ135に基づくことができる。たとえば、インターフェース208を介して受信される要求は、「コーヒーメーカーのコストはいくらですか?」とすることができる。データ処理システム102は、ナレッジグラフ126を使用して、要求に対する応答を生成することができる。応答は、ランディングページ135に示されているコーヒーメーカーのコストを含むことができる。

デジタルコンポーネント206は、検索要求に応答してクライアントコンピューティングデバイス104に送信することができる。デジタルコンポーネント206は、サードパーティコンテンツの要求に応答して、クライアントコンピューティングデバイス104に送信することができる。たとえば、クライアントコンピューティングデバイス104は、ファーストパーティコンテンツを含むウェブページをロードすることができる。ウェブページは、サードパーティコンテンツ用のスロットを含むことができる。ウェブページは、実行されると、クライアントコンピューティングデバイス104が、データ処理システム102にサードパーティコンテンツを要求するようにするスクリプトまたは他のプロセッサ実行可能命令を含むことができる。データ処理システム102は、デジタルコンポーネントセレクタ120を介して、ウェブページのファーストパーティコンテンツに関連付けられたエンティティ、キーワード、コンテンツ、またはデータに基づいてデジタルコンポーネント206を選択することができる。データ処理システム102は、デジタルコンポーネントプロバイダデバイス106からのデジタルコンポーネント204およびインターフェース208を含むようにデジタルコンポーネント206を生成することができる。インターフェース208は、クライアントコンピューティングデバイス104にローカルデジタルアシスタントのインスタンスを起動させるプロセッサ実行可能命令とすることができる。ユーザがファーストパーティコンテンツおよびデジタルコンポーネント206を含むウェブページを閲覧している間、ユーザは、インターフェース208に信号を入力することができる。インターフェース208は、入力信号をデータ処理システム102に送信することができる。インターフェース208は、ブラウザがウェブページを離れることなく、入力信号をデータ処理システム102に送信することができる。これによって、ユーザは、ウェブページを離れることなく、デジタルコンポーネント204に関する追加情報を収集または要求することができる。

クライアントコンピューティングデバイス104は、音声のみのインターフェースを含むことができる。たとえば、検索応答202を表示するのではなく、クライアントコンピューティングデバイス104は、検索応答202を出力オーディオファイルとしてレンダリングすることができる。また、デジタルコンポーネント206および204を、たとえば、検索応答202のレンダリング後に、出力オーディオ信号としてユーザにレンダリングすることができる。ユーザは、クライアントコンピューティングデバイス104に話しかけて、インターフェース208に入力信号を提供することができる。

図3は、ネットワーク化システムにおいてドメイン固有の自然言語処理モデルに基づいて応答を生成するための例示的な方法300のブロック図を示す。方法300は、入力オーディオ信号を受信すること(ACT302)を含むことができる。方法300は、入力オーディオ信号を構文解析すること(ACT304)を含むことができる。方法300は、検索結果を選択すること(ACT306)を含むことができる。方法300は、デジタルコンポーネントを選択すること(ACT308)を含むことができる。方法300は、検索結果およびデジタルコンポーネントを送信すること(ACT310)を含むことができる。方法300は、要求を受信すること(ACT312)を含むことができる。方法300は、応答を選択すること(ACT314)を含むことができる。方法300は、応答を送信すること(ACT316)を含むことができる。

方法300は、入力信号を受信すること(ACT302)を含むことができる。この方法は、データ処理システムによって実行されるNLPコンポーネントによって、入力信号を受信することを含むことができる。入力信号は、第1のクライアントデバイスにおけるセンサによって検出され、データ処理システムに送信される入力オーディオ信号とすることができる。センサは、第1のクライアントデバイスのマイクロフォンとすることができる。入力信号は、入力された要求とすることができる。1つまたは複数のプロセッサおよびメモリを含むデータ処理システムによって少なくとも部分的に実行されるデジタルアシスタントコンポーネントは、入力信号を受信することができる。入力信号は、デジタルアシスタントによって促進される会話を含むことができる。会話は、1つまたは複数の入力および出力を含むことができる。会話は、音声ベース、テキストベース、または音声とテキストとの組合せとすることができる。入力オーディオ信号は、テキスト入力、または会話情報を提供することができる他のタイプの入力を含むことができる。データ処理システムは、会話に対応するセッションの入力を受信することができる。

方法300は、入力信号を構文解析すること(ACT304)を含むことができる。データ処理システムのNLPコンポーネントは、入力信号を構文解析して要求を識別することができる。要求は、検索要求とすることができる。要求は、データ、情報、ウェブページ、または検索の意図または要求とすることができる。NLPコンポーネントは、要求内の用語またはフレーズなど、1つまたは複数のエンティティを識別することができる。

方法300は、検索結果を選択すること(ACT306)を含むことができる。データ処理システムは、少なくとも入力信号から構文解析された検索要求に基づいた検索結果を選択することができる。データ処理システムは、1つまたは複数の検索結果を選択し、検索結果をクライアントコンピューティングデバイスに提供することができる検索エンジンまたは検索データ処理システムを含むことができ、またはそれらとインターフェースすることができる。

方法300は、デジタルコンポーネントを選択すること(ACT308)を含むことができる。データ処理システムは、検索要求に基づいてデジタルコンポーネントを選択することができる。たとえば、デジタルコンポーネントプロバイダデバイスは、データ処理システムのデジタルコンポーネント候補を提供することができる。デジタルコンポーネントプロバイダデバイスは、デジタルコンポーネント候補をキーワードに関連付けたり、ラベルを付けたりすることができる。デジタルコンポーネントセレクタは、デジタルコンポーネントのキーワードと、要求で識別されたエンティティ(たとえば用語など)との間の類似性に基づいて、デジタルコンポーネント候補から1つまたは複数のデジタルコンポーネントを選択することができる。

類似性は、一致とし得る。たとえば、データ処理システムは、要求内のエンティティとして存在するキーワードを有するデジタルコンポーネントを選択することができる。たとえば、図2を参照すると、デジタルコンポーネント204は、キーワード「コーヒー」でラベル付けすることができる。「コーヒー」という用語が入力信号200に存在するので、デジタルコンポーネントセレクタは、デジタルコンポーネント204を選択することができる。

類似性は、意味関係に基づくことができる。たとえば、検索は、バケーションレンタルについてとすることができ、データ処理システムは、「フライト予約」というフレーズがバケーションレンタルに意味的に関連している可能性があるので、キーワード「フライト予約」を含むデジタルコンポーネントに検索を照合することができる。

デジタルコンポーネントは、ランディングページまたは他のウェブサイトなどのデータソースに関連付けることができる。デジタルコンポーネントがデータソースへのリンクを含むとき、デジタルコンポーネントをデータソースに関連付けることができる。デジタルコンポーネントは、リンクがクライアントコンピューティングデバイスによってアクティブ化されると、リンクによって、クライアントコンピューティングデバイスによって実行されるウェブブラウザがデータソースを取り出すようなリンクを含むことができる。データ処理システムは、データソースに基づいてナレッジグラフを生成することができる。たとえば、ナレッジグラフは、データソースに含まれる用語、フレーズ、または他のエンティティから生成することができる。デジタルコンポーネントプロバイダデバイスは、ナレッジグラフを生成し、デジタルコンポーネント候補とともにナレッジグラフをデータ処理システムに提供することができる。

方法300は、結果およびデジタルコンポーネントを送信すること(ACT310)を含むことができる。データ処理システムは、入力信号をデータ処理システムに送信したクライアントコンピューティングデバイスに検索結果およびデジタルコンポーネントを送信することができる。クライアントコンピューティングデバイスが結果およびデジタルコンポーネントを受信すると、クライアントコンピューティングデバイスは、結果およびデジタルコンポーネントをレンダリングすることができる。デジタルコンポーネントをレンダリングすると、クライアントコンピューティングデバイスにおいてローカルデジタルアシスタントのインスタンスがアクティブ化または実行され得る。ローカルデジタルアシスタントは、デジタルコンポーネントをレンダリングまたはそうでなければ表示することができる。ローカルデジタルアシスタントは、結果をレンダリングまたはそうでなければ表示することができる。

デジタルコンポーネントは、ナレッジグラフへのインターフェースを含むことができる。たとえば、デジタルコンポーネントは、レンダリングされると、グラフィカルインターフェースなどの入力インターフェースをユーザに提示することができる。入力インターフェースを介して、ユーザは、要求を入力することができる。要求は、デジタルコンポーネントを介してデータ処理システムに送信することができる。

方法300は、要求を受信すること(ACT312)を含むことができる。要求は、入力信号内にあり得る。入力信号は、オーディオベースまたはテキストベースの入力信号とすることができる。たとえば、ユーザは、クライアントコンピューティングデバイスのマイクロフォンによって検出することができる入力インターフェースに質問を話すことができる。ローカルデジタルアシスタントは、入力信号を受信し、入力信号をデータ処理システムに送信することができる。入力信号が入力オーディオ信号であるとき、NLPコンポーネントは、入力信号を受信し、入力信号からの要求を構文解析することができる。

方法300は、応答を選択すること(ACT314)を含むことができる。デジタルコンポーネントセレクタは、入力信号に含まれる要求への応答を選択することができる。データ処理システムは、ACT310においてクライアントコンピューティングデバイスに送信されたデジタルコンポーネントに関連付けられたナレッジグラフに基づいて応答を生成することができる。

方法300は、応答を送信すること(ACT316)を含むことができる。データ処理システムは、応答をクライアントコンピューティングデバイスに送信することができる。データ処理システムは、応答、およびクライアントコンピューティングデバイスにおいて応答をレンダリングする方法の命令を含むデジタルコンポーネントに応答を含めることができる。クライアントコンピューティングデバイスは、ACT310においてクライアントコンピューティングデバイスに送信されたデジタルコンポーネント内に応答をレンダリングまたは表示することができる。クライアントコンピューティングデバイスに以前送信されたデジタルコンポーネント内に応答をレンダリングすることによって、ユーザに現在表示されているコンテンツを変更または変えることなく、応答をユーザに提示することができる。たとえば、図2も参照すると、デジタルコンポーネント206内の結果をレンダリングすることによって、ユーザがデジタルコンポーネント204に関する追加情報を要求し、受信する間、入力信号200および検索応答202がユーザに表示されたままであることが可能になり得る。

図4は、ネットワーク化システムにおいてドメイン固有の自然言語処理モデルに基づいて応答を生成するための例示的な方法400のブロック図を示す。方法400は、要求を受信すること(ACT402)を含むことができる。方法400は、デジタルコンポーネントを選択すること(ACT404)を含むことができる。方法400は、デジタルコンポーネントを送信すること(ACT406)を含むことができる。方法400は、入力信号を受信すること(ACT408)を含むことができる。方法400は、入力信号を構文解析すること(ACT410)を含むことができる。方法400は、応答を選択すること(ACT412)を含むことができる。方法400は、応答を送信すること(ACT414)を含むことができる。

方法400は、要求を受信すること(ACT402)を含むことができる。要求は、サードパーティコンテンツについての要求である可能性がある。要求は、クライアントコンピューティングデバイスから受信され得る。たとえば、クライアントコンピューティングデバイスは、ウェブブラウザを含み得る。ウェブブラウザは、ファーストパーティコンテンツを含むウェブサイトを受信し、レンダリングすることができる。ウェブサイトは、サードパーティコンテンツ用のスロットを含むことができる。スロットは、ウェブブラウザがコンテンツ要求をデータ処理システムに送信にするのを可能にするプロセッサ実行可能命令を含むことができる。要求は、コンテンツパラメータを含むことができる。コンテンツパラメータは、返されるデジタルコンポーネントのサイズ要件、またはデータ処理システムがデジタルコンポーネントを選択するために使用することができるキーワードとすることができる。

方法400は、デジタルコンポーネントを選択すること(ACT404)を含むことができる。データ処理システムは、複数のデジタルコンポーネントからデジタルコンポーネントを選択することができる。データ処理システムのデジタルコンポーネントセレクタは、デジタルコンポーネントを選択することができる。デジタルコンポーネントセレクタは、リアルタイムコンテンツ選択プロセスを介して複数のデジタルコンポーネントを選択することができる。デジタルコンポーネントセレクタは、デジタルコンポーネントをスコアリングおよびランク付けすることができる。デジタルコンポーネントセレクタは、デジタルコンポーネントのスコアおよびランクに基づいて、複数のデジタルコンポーネントからデジタルコンポーネントを選択することができる。たとえば、デジタルコンポーネントセレクタは、最高のランクまたはスコアを有するデジタルコンポーネントを選択することができる。データ処理システムは、選択されたデジタルコンポーネントに関連付けられたナレッジグラフへのインターフェースを有する別のデジタルコンポーネントにデジタルコンポーネントを含めることができる。

方法400は、デジタルコンポーネントを送信すること(ACT406)を含むことができる。データ処理システムは、選択されたデジタルコンポーネントをクライアントコンピューティングデバイスに送信することができる。クライアントコンピューティングデバイスは、デジタルコンポーネントを受信し、ウェブページのスロットのうちの1つにあるデジタルコンポーネントをサードパーティコンテンツとしてレンダリングすることができる。ファーストパーティコンテンツを含むデジタルコンポーネントをレンダリングすることによって、デジタルコンポーネントに関連付けられたナレッジグラフへのインターフェースをエンドユーザに提示することができる。たとえば、デジタルコンポーネントのレンダリングによって、クライアントコンピューティングデバイスは、デジタルアシスタントのローカルインスタンスを起動または実行することができる。インターフェースは、入力信号を受信するように構成され得る。入力信号は、テキストベースまたはオーディオベースとすることができる。クライアントコンピューティングデバイスは、デジタルコンポーネントを介して受信された入力信号をデータ処理システムに送信することができる。

方法400は、入力信号を受信すること(ACT408)を含むことができる。この方法400は、データ処理システムによって実行されるNLPコンポーネントによって、入力信号を受信することを含むことができる。入力信号は、第1のクライアントデバイスにおけるセンサによって検出され、データ処理システムに送信される入力オーディオ信号とすることができる。センサは、第1のクライアントデバイスのマイクロフォンとすることができる。入力信号は、入力された要求とすることができる。1つまたは複数のプロセッサおよびメモリを含むデータ処理システムによって少なくとも部分的に実行されるデジタルアシスタントコンポーネントは、入力信号を受信することができる。

方法400は、入力信号を構文解析すること(ACT410)を含むことができる。データ処理システムのNLPコンポーネントは、入力信号を構文解析して要求を識別することができる。要求は、検索要求とすることができる。要求は、データ、情報、ウェブページ、または検索の意図または要求とすることができる。NLPコンポーネントは、要求内の用語またはフレーズなど、1つまたは複数のエンティティを識別することができる。たとえば、要求は、サードパーティコンテンツとしてクライアントコンピューティングデバイスに提供されるデジタルコンポーネントに関連する情報またはデータについてのものとすることができる。

方法400は、応答を選択すること(ACT412)を含むことができる。入力信号が送信されたデジタルコンポーネントは、ナレッジグラフに関連付けることができる。ナレッジグラフは、デジタルコンポーネントに関連付けられたデータソース(たとえば、ランディングページなど)内に含まれる用語またはエンティティから生成することができる。データ処理システムは、デジタルコンポーネントに関連付けられたナレッジグラフに基づいて応答を選択することができる。たとえば、データ処理システムのNLPコンポーネントは、ナレッジグラフを使用して、ランディングページに含まれるエンティティおよびデータに基づいて応答を生成することができる。

方法400は、応答を送信すること(ACT414)を含むことができる。データ処理システムは、応答をクライアントコンピューティングデバイスに送信することができる。クライアントコンピューティングデバイスは、応答を受信し、ACT406においてクライアントコンピューティングデバイスに送信されたデジタルコンポーネント内に応答をレンダリングすることができる。デジタルコンポーネント内に応答をレンダリングすることによって、ユーザに提示されるファーストパーティコンテンツを変更または変えることなく、応答をユーザに提示することができる。たとえば、ユーザは、応答を閲覧または受信するために、ファーストパーティコンテンツを表示している元のウェブサイトを離れる必要はない。

図5は、例示的なコンピュータシステム500のブロック図である。コンピュータシステムまたはコンピューティングデバイス500は、たとえばデータ処理システム102など、システム100またはその構成要素を含むか、または実装するために使用することができる。データ処理システム102は、インテリジェントパーソナルアシスタントまたは音声ベースのデジタルアシスタントを含むことができる。コンピューティングシステム500は、情報を通信するためのバス505または他の通信コンポーネントと、情報を処理するためにバス505に結合されたプロセッサ510または処理回路とを含む。コンピューティングシステム500はまた、情報を処理するためにバスに結合された1つまたは複数のプロセッサ510または処理回路を含むこともできる。コンピューティングシステム500はまた、情報およびプロセッサ510によって実行される命令を記憶するためにバス505に結合されたランダムアクセスメモリ(RAM)または他の動的記憶デバイスなどのメインメモリ515も含む。メインメモリ515は、データリポジトリ124であるか、またはデータリポジトリ124を含むことができる。メインメモリ515はまた、プロセッサ510による命令の実行中に、位置情報、一時変数、または他の中間情報を記憶するために使用することもできる。コンピューティングシステム500は、プロセッサ510のための静的情報および命令を記憶するために、バス505に結合された読取り専用メモリ(ROM)520または他の静的記憶デバイスをさらに含み得る。固体デバイス、磁気ディスク、または光ディスクなどの記憶デバイス525をバス505に結合して、情報および命令を永続的に記憶することができる。記憶デバイス525は、データリポジトリ124を含むか、またはその一部とすることができる。

コンピューティングシステム500は、バス505を介して、情報をユーザに表示するために、液晶ディスプレイまたはアクティブマトリックスディスプレイなどのディスプレイ535に結合され得る。英数字および他のキーを含むキーボードなどの入力デバイス530は、情報およびコマンド選択をプロセッサ510に通信するためにバス505に結合され得る。入力デバイス530は、タッチスクリーンディスプレイ535を含むことができる。入力デバイス530はまた、方向情報およびコマンド選択をプロセッサ510に通信し、ディスプレイ535上のカーソル移動を制御するための、マウス、トラックボール、またはカーソル方向キーなどのカーソル制御を含むこともできる。ディスプレイ535は、データ処理システム102、クライアントコンピューティングデバイス104、または図1の他の構成要素の一部とすることができる。

本明細書に記載のプロセス、システム、および方法は、プロセッサ510がメインメモリ515に含まれる命令の構成を実行することに応答して、コンピューティングシステム500によって実装することができる。そのような命令を、記憶デバイス525など別のコンピュータ可読媒体からメインメモリ515に読み込むことができる。メインメモリ515に含まれる命令の構成の実行によって、コンピューティングシステム500は、本明細書に記載の例示的なプロセスを実行する。メインメモリ515に含まれる命令を実行するために、マルチプロセッシング構成の1つまたは複数のプロセッサも使用され得る。ハードワイヤード回路は、本明細書に記載のシステムおよび方法とともに、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて使用することができる。本明細書に記載のシステムおよび方法は、ハードウェア回路およびソフトウェアの任意の特定の組合せに限定されない。

例示的なコンピューティングシステムが図5に記載されているが、本明細書に記載された動作を含む主題は、他のタイプのデジタル電子回路、または本明細書に開示された構造およびそれらの構造的均等物を含むコンピュータソフトウェア、ファームウェア、またはハードウェア、またはそれらの1つもしくは複数の組合せに実装することができる。

本明細書で説明したシステムがユーザに関する個人情報を収集する、または個人情報を利用する可能性がある状況では、ユーザは、個人情報(たとえば、ユーザのソーシャルネットワーク、社会的行動または活動、ユーザの選好、またはユーザの位置に関する情報)を収集し得るプログラムまたは機能を制御する機会、または、ユーザにとってより関連があり得る、コンテンツサーバまたは他のデータ処理システムからコンテンツを受信するかどうか、および/またはどのようにコンテンツを受信するかを制御する機会を与えられ得る。さらに、あるデータは、それが記憶または使用される前に1つまたは複数の方法で匿名化される可能性があり、したがって、パラメータを生成するときに個人的に識別可能な情報は削除される。たとえば、個人的に識別可能な情報をそのユーザについて決定することができないように、ユーザの識別情報は匿名化されてもよく、または、ユーザの地理的位置が一般化されてもよく、ユーザの特定の場所を決定できないように、(市、郵便番号、または州レベルなどの)位置情報が取得される。したがって、ユーザは、ユーザについての情報がどのように収集されるか、およびコンテンツサーバによってどのように使用されるかを制御し得る。

本明細書に記載された主題および動作は、デジタル電子回路、あるいは本明細書に開示される構造およびそれらの構造的均等物を含むコンピュータソフトウェア、ファームウェア、もしくはハードウェア、またはそれらの1つもしくは複数の組合せに実装することができる。本明細書に記載された主題は、データ処理装置による実行のために、またはデータ処理装置の動作を制御するために、1つまたは複数のコンピュータ記憶媒体上に符号化される、1つまたは複数のコンピュータプログラム(たとえば、コンピュータプログラム命令の1つまたは複数の回路)として実装することができる。代替的に、または追加として、プログラム命令は、データ処理装置によって実行するための適切な受信機装置への送信のために情報を符号化するために生成された、人工的に生成された伝搬信号(たとえば、機械生成の電気、光学、または電磁信号)上で符号化することができる。コンピュータ記憶媒体は、コンピュータ可読記憶デバイス、コンピュータ可読記憶基板、ランダムまたはシリアルアクセスメモリアレイまたはデバイス、あるいはそれらの1つまたは複数の組合せであり得、またはそれに含まれ得る。コンピュータ記憶媒体は伝搬信号ではないが、コンピュータ記憶媒体は、人工的に生成された伝搬信号に符号化されたコンピュータプログラム命令の送信元または宛先とすることができる。コンピュータ記憶媒体はまた、1つまたは複数の別々の構成要素または媒体(たとえば、複数のCD、ディスク、または他の記憶デバイス)であり得、またはそれに含まれ得る。本明細書で説明されている動作は、1つまたは複数のコンピュータ可読記憶デバイスに記憶されている、または他のソースから受信されたデータに対してデータ処理装置によって実行される動作として実装することができる。

「データ処理システム」、「コンピューティングデバイス」、「構成要素」、または「データ処理装置」という用語は、たとえば、プログラム可能なプロセッサ、コンピュータ、システムオンチップ、複数のもの、または上記の組合せを含む、データを処理するための様々な装置、デバイス、および機械を包含する。装置は、(たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)などの)専用論理回路を含むことができる。装置は、ハードウェアに加えて、当該のコンピュータプログラムの実行環境を生成するコード(たとえば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、クロスプラットフォームランタイム環境、仮想マシン、またはそれらのうちの1つもしくは複数の組合せを構成するコード)も含むことができる。装置および実行環境は、ウェブサービス、分散コンピューティング、およびグリッドコンピューティングインフラストラクチャなど、様々な異なるコンピューティングモデルインフラストラクチャを実現することができる。たとえば、インターフェース110、デジタルコンポーネントセレクタ120、ドメインプロセッサ117、またはNLPコンポーネント114、および他のデータ処理システム102構成要素は、1つまたは複数のデータ処理装置、システム、コンピューティングデバイス、またはプロセッサを含むか、または共有することができる。

コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、アプリ、スクリプト、またはコードとも呼ばれる)は、コンパイルまたはインタープリタ型言語、宣言型または手続き型言語を含む任意の形式のプログラミング言語で記述することができ、スタンドアロンプログラムとして、またはコンピューティング環境での使用に適したモジュール、構成要素、サブルーチン、オブジェクト、または他のユニットとしてを含む任意の形式で配置することができる。コンピュータプログラムは、ファイルシステム内のファイルに対応することができる。コンピュータプログラムは、当該のプログラム専用の単一のファイル、あるいは、(たとえば、1つもしくは複数のモジュール、サブプログラム、またはコードの一部を記憶するファイルなど)複数のコーディネートされたファイルに、(たとえば、マークアップ言語文書に記憶された1つもしくは複数のスクリプトなど)他のプログラムまたはデータを保持するファイルの一部に記憶することができる。コンピュータプログラムは、1つのコンピュータ上で、または1つのサイトに位置するか、もしくは複数のサイトに分散され、通信ネットワークによって相互接続された複数のコンピュータ上で実行されるように配置することができる。

本明細書に記載したプロセスおよび論理フローは、入力データ上で動作し、出力を生成することによってアクションを実行するために、1つまたは複数のコンピュータプログラム(たとえばデータ処理システム102の構成要素)を実行する1つまたは複数のプログラマブルプロセッサによって実行することができる。プロセスおよび論理フローはまた、(たとえば、FPGAまたはASICなど)専用論理回路によっても実行することができ、装置を専用論理回路として実装することもできる。コンピュータプログラム命令およびデータを記憶するのに適したデバイスは、例として、(たとえば、EPROM、EEPROM、およびフラッシュメモリデバイスなどの)半導体メモリデバイス、(たとえば、内部ハードディスクまたはリムーバブルディスクなどの)磁気ディスク、光磁気ディスク、ならびにCD-ROMおよびDVD-ROMディスクを含むすべての形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路によって補われる、またはそれに組み込まれ得る。

本明細書に記載された主題は、(たとえばデータサーバとしての)バックエンド構成要素を含む、または(たとえばアプリケーションサーバなどの)ミドルウェア構成要素を含む、または(たとえば、グラフィカルユーザインターフェースを有するクライアントコンピュータ、またはユーザが本明細書に記載された主題の実装と対話することができるウェブブラウザを有するクライアントコンピュータなどの)フロントエンド構成要素を含む、または1つもしくは複数のそのようなバックエンド、ミドルウェア、またはフロントエンド構成要素の組合せを含むコンピューティングシステムにおいて実装することができる。システムの構成要素は、(たとえば、通信ネットワークなど)任意の形式または媒体のデジタルデータ通信によって相互接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)およびワイドエリアネットワーク(「WAN」)、インターネットワーク(たとえばインターネット)、およびピアツーピアネットワーク(たとえばアドホックピアツーピアネットワーク)を含む。

システム100またはシステム500などのコンピューティングシステムは、クライアントおよびサーバを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常は、通信ネットワーク(たとえば、ネットワーク105)を介して対話する。クライアントとサーバとの関係は、それぞれのコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによって生じる。いくつかの実装形態では、サーバは、データ(たとえば、デジタルコンポーネントを表すデータパケット)をクライアントデバイスに送信する(たとえば、データを表示し、クライアントデバイスと対話するユーザからのユーザ入力を受信する目的で)。クライアントデバイスにおいて生成されたデータ(たとえば、ユーザ対話の結果)は、サーバにおいてクライアントデバイスから受信することができる(たとえば、データ処理システム102によって、クライアントコンピューティングデバイス104またはデジタルコンポーネントプロバイダデバイス106から受信される)。

動作が特定の順序で図面に示されているが、そのような動作が、示された特定の順序で、または順番に実行される必要はなく、例示されたすべての動作が実行される必要はない。本明細書に記載のアクションは、異なる順序で実行することができる。

様々なシステム構成要素の分離は、すべての実装において分離を必要とせず、説明されたプログラム構成要素は、単一のハードウェアまたはソフトウェア製品に含まれ得る。たとえば、NLPコンポーネント114、ドメインプロセッサ117、またはデジタルコンポーネントセレクタ120は、単一の構成要素、アプリ、またはプログラム、または1つもしくは複数の処理回路を有する論理デバイス、またはデータ処理システム102の1つもしくは複数のサーバの一部とすることができる。

いくつかの例示的な実装形態を説明してきたが、上記は限定ではなく例示的であり、例として提示されていることは明らかである。特に、本明細書で提示される例の多くは、方法動作またはシステム要素の特定の組合せを含むが、それらの動作およびそれらの要素は、他の方法で組み合わされて同じ目的を達成することができる。一実装形態に関連して論じられた動作、要素、および特徴は、他の実装形態または実装形態における同様の役割から除外されることを意図しない。

本明細書で使用されている言い回しおよび用語は説明を目的としており、限定と見なされないものとする。本明細書における「含む」、「備える」、「有する」、「含む」、「伴う」、「によって特徴付けられる」、「ことを特徴とする」およびその変形の使用は、その後に列挙される事項、その均等物、および追加の事項、ならびに排他的にそれ以降に列挙された項目からなる代替の実装を含むものとする。一実装形態では、本明細書に記載したシステムおよび方法は、説明されている要素、動作、または構成要素のうちの1つ、複数の各組合せ、またはすべてからなる。

本明細書で単数形で言及されるシステムおよび方法の実装形態または要素または行為への任意の言及は、複数のこれらの要素を含む実装形態をも包含し得、本明細書での任意の実装形態または要素または行為への任意の複数の言及は、単一要素のみを含む実装形態も包含し得る。単数形または複数形での言及は、現在開示されているシステムまたは方法、それらの構成要素、行為、または要素を単一または複数の構成に限定することを意図するものではない。任意の情報、行為、または要素に基づく任意の行為または要素への言及は、その行為または要素が任意の情報、行為、または要素に少なくとも部分的に基づく実装形態を含み得る。

本明細書で開示される任意の実装形態は、任意の他の実装形態または実施形態と組み合わされてもよく、「実装形態」、「いくつかの実装形態」、「一実装形態」などへの言及は、必ずしも相互に排他的であるとは限らず、実装形態に関連して記載された特定の特徴、構造、または特性が少なくとも1つの実装形態または実施形態に含まれ得ることを示すものとする。本明細書で使用されているそのような用語は、必ずしもすべてが同じ実装形態を指すとは限らない。本明細書に開示された態様および実装形態と一致する任意の方法で、任意の実装形態を任意の他の実装形態と包括的または排他的に組み合わせることができる。

「または」への言及は、「または」を使用して記載された任意の用語が単一の、複数の、およびすべての記載された用語のいずれかを示し得るように包括的であると解釈され得る。たとえば、「「A」と「B」の少なくとも1つ」への言及は、「A」のみ、「B」のみ、および「A」と「B」の両方を含むことができる。「含んでいる」または他のオープンな用語と併せて使用されるそのような言及は、追加の項目を含むことができる。

図面、詳細な説明、または任意の請求項における技術的特徴の後に参照符号が続く場合、その参照符号は、図面、詳細な説明、および請求項の理解度を高めるために含まれている。したがって、参照符号もそれらの欠如も、いずれの請求項要素の範囲に対してもいかなる限定的な効果も及ぼさない。

本明細書に記載のシステムおよび方法は、その特性から逸脱することなく他の特定の形態で実施することができる。たとえば、コンピューティングデバイス104は、パッケージ化されたデータオブジェクトを生成し、アプリケーションを起動するときにそれをサードパーティアプリケーションに転送することができる。上記の実装形態は、説明されたシステムおよび方法を限定するのではなく例示的なものである。したがって、本明細書に記載のシステムおよび方法の範囲は、上記の説明ではなく添付の特許請求の範囲によって示され、特許請求の範囲の均等物の意味および範囲内にある変更はその中に包含される。

100 システム
102 データ処理システム
104 クライアントコンピューティングデバイス
105 ネットワーク
106 デジタルコンポーネントプロバイダデバイス
110 インターフェース
112 リモートデジタルアシスタントコンポーネント
114 NLPコンポーネント
117 ドメインプロセッサ
120 デジタルコンポーネントセレクタ
124 データリポジトリ
126 ナレッジグラフ
132 コンテンツデータ
134 ローカルデジタルアシスタント
135 データソース
138 センサ
140 トランスデューサ
140 プリプロセッサコンポーネント
142 オーディオドライバ
144 ディスプレイ
200 入力信号
202 検索応答
204 デジタルコンポーネント
206 デジタルコンポーネント
208 インターフェース
500 コンピュータシステム
505 バス
510 プロセッサ
515 メインメモリ
520 読取り専用メモリ(ROM)
525 記憶デバイス
530 入力デバイス
535 ディスプレイ

Claims

ネットワーク化システムにおいてドメイン固有の自然言語処理モデルに基づいて応答を生成するためのシステムであって、
1つまたは複数のプロセッサおよびメモリを含むデータ処理システムを含み、前記1つまたは複数のプロセッサが、
自然言語プロセッサコンポーネントによって、および前記データ処理システムのインターフェースを介して、第1のクライアントデバイスにおけるセンサによって検出された入力オーディオ信号を受信することと、
前記自然言語プロセッサコンポーネントによって、前記入力オーディオ信号における第1の検索要求を識別するために、前記入力オーディオ信号を構文解析することと、
前記データ処理システムによって実行されるデジタルコンポーネントセレクタによって、少なくとも前記第1の検索要求に基づいて検索結果を選択することと、
前記デジタルコンポーネントセレクタによって、前記第1の検索要求に基づいてデジタルコンポーネントを選択することであって、前記デジタルコンポーネントが、複数のエンティティを含むデータソースへのリンクを含むとともに前記データソースの前記複数のエンティティ間の関係を表すナレッジグラフに関連付けられ、前記デジタルコンポーネントが、前記ナレッジグラフに基づいて応答を要求するための入力インターフェースを含む、ことと、
前記インターフェースによって、前記データソースへの前記リンクを含むとともに前記ナレッジグラフに関連付けられた前記デジタルコンポーネントを、前記検索結果とともに前記第1のクライアントデバイスに送信することと、
前記インターフェースによって、および前記クライアントデバイスによってレンダリングされた前記デジタルコンポーネントの前記入力インターフェースを介して、第2の検索要求を受信することと、
前記デジタルコンポーネントセレクタによって、および前記ナレッジグラフに基づいて、前記第2の検索要求に基づいて応答を選択することと、
前記インターフェースによって、前記デジタルコンポーネント内に前記応答をレンダリングするために、前記第1のクライアントデバイスに前記応答を送信することと、
を行うように、前記自然言語プロセッサコンポーネントおよび前記デジタルコンポーネントセレクタを実行する、システム。
前記データソースの前記複数のエンティティに基づいて前記ナレッジグラフを生成するように前記データ処理システムによって実行されるドメインプロセッサ
を含む請求項1に記載のシステム。
前記ナレッジグラフが、前記データソースの前記複数のエンティティ間の意味関係を表す、請求項1または2に記載のシステム。
前記データソースが、前記デジタルコンポーネントのランディングページを含む、請求項1から3のいずれか一項に記載のシステム。
前記デジタルコンポーネントの前記入力インターフェースを介して前記第1のクライアントデバイスの前記センサによって検出された第2の入力オーディオ信号として前記第2の検索要求を受信するための前記自然言語プロセッサコンポーネントと、
前記第2の入力オーディオ信号における要求を識別するために、前記第2の入力オーディオ信号を構文解析するための前記自然言語プロセッサコンポーネントと、
前記ナレッジグラフに少なくとも基づいて、前記第2の入力オーディオ信号における前記要求への応答を含む第2のデジタルコンポーネントを生成するためのドメインプロセッサと、
前記第2のデジタルコンポーネントを、前記第1のクライアントデバイスに送信するための前記インターフェースと
を含む、請求項1から4のいずれか一項に記載のシステム。
前記第2の入力オーディオ信号における前記要求に基づいてコンテンツプロバイダを選択するための前記デジタルコンポーネントセレクタと、
前記デジタルコンポーネントに前記コンテンツプロバイダへのリンクを含めるための前記デジタルコンポーネントセレクタと
を含む請求項5に記載のシステム。
前記第2の検索要求に基づいて第2のデータソースを選択するための前記デジタルコンポーネントセレクタであって、前記第2のデータソースが、第2の複数のエンティティを含む、前記デジタルコンポーネントセレクタと、
前記データソースの複数のエンティティと前記第2のデータソースの前記第2の複数のエンティティとの間の意味関係を表す前記ナレッジグラフを生成するための前記ドメインプロセッサと
を含む、請求項1から6のいずれか一項に記載のシステム。
ナレッジグラフが、前記データソースの複数のエンティティの各々を表すノードと、前記ノード間の関係を表すエッジとを含む、請求項1から7のいずれか一項に記載のシステム。
前記ノード間の関係を表す前記エッジの各々の重みを計算するためのドメインプロセッサを含む請求項8に記載のシステム。
前記第1のクライアントデバイスによって検出された第2の入力信号を受信するための前記自然言語プロセッサコンポーネントと、
前記第2の入力信号における要求を識別するために、前記第2の入力信号を構文解析するための前記自然言語プロセッサコンポーネントと、
前記ナレッジグラフに少なくとも基づいて、前記第2の入力信号における前記要求への応答を含む第2のデジタルコンポーネントを生成するためのドメインプロセッサと、
前記第2の入力信号における前記要求に応答して、前記第2のデジタルコンポーネントを、前記第1のクライアントデバイスに送信するための前記インターフェースと
を含む、請求項1から9のいずれか一項に記載のシステム。
前記第1のクライアントデバイスからコンテンツ要求を受信するための前記デジタルコンポーネントセレクタと、
前記コンテンツ要求に基づいて第2のデジタルコンポーネントを選択するための前記デジタルコンポーネントセレクタであって、前記第2のデジタルコンポーネントが、第2のデータソースと、前記第2のデータソースに基づく第2のナレッジグラフとに関連付けられている、前記デジタルコンポーネントセレクタと、
コンテンツスロットに前記デジタルコンポーネントをレンダリングするために、前記第2のデジタルコンポーネントを前記第1のクライアントデバイスに送信するための前記デジタルコンポーネントセレクタと、
前記第1のクライアントデバイスにおけるセンサによって検出された第2の入力オーディオ信号を受信するための前記自然言語プロセッサコンポーネントと、
前記入力オーディオ信号における第2の要求を識別するために、前記入力オーディオ信号を構文解析するための前記自然言語プロセッサコンポーネントと、
前記第2のナレッジグラフに基づいて前記第2の要求への応答を選択するための前記自然言語プロセッサコンポーネントと、
前記クライアントコンピューティングデバイスに前記応答を送信するための前記インターフェースと
を含む、請求項1から10のいずれか一項に記載のシステム。
ネットワーク化システムにおいてドメイン固有の自然言語処理モデルに基づいて応答を生成するための方法であって、
データ処理システムによって実行される自然言語プロセッサコンポーネントによって、および前記データ処理システムのインターフェースを介して、第1のクライアントデバイスにおけるセンサによって検出された入力オーディオ信号を受信するステップと、
前記自然言語プロセッサコンポーネントによって、前記入力オーディオ信号における第1の検索要求を識別するために、前記入力オーディオ信号を構文解析するステップと、
前記データ処理システムによって実行されるデジタルコンポーネントセレクタによって、少なくとも前記第1の検索要求に基づいて検索結果を選択するステップと、
前記デジタルコンポーネントセレクタによって、前記第1の検索要求に基づいてデジタルコンポーネントを選択するステップであって、前記デジタルコンポーネントが、データソースと、前記データソースに基づくナレッジグラフとに関連付けられている、ステップと、
前記デジタルコンポーネントセレクタによって、前記データソースと、前記データソースとに基づく前記ナレッジグラフに関連付けられた前記デジタルコンポーネントを、前記検索結果とともに前記第1のクライアントデバイスに送信するステップと
を含む方法。
前記データ処理システムによって実行されるドメインプロセッサによって、前記データソースに含まれる1つまたは複数のエンティティに基づく前記ナレッジグラフを生成するステップを含む、請求項12に記載の方法。
前記ナレッジグラフが、前記データソースの複数のエンティティ間の意味関係を表す、請求項12または13に記載の方法。
前記データソースが、前記デジタルコンポーネントのランディングページを含む、請求項12から14のいずれか一項に記載の方法。
前記自然言語プロセッサコンポーネントによって、前記デジタルコンポーネントを介して前記第1のクライアントデバイスの前記センサによって検出された第2の入力オーディオ信号を受信するステップと、
前記自然言語プロセッサコンポーネントによって、前記第2の入力オーディオ信号における要求を識別するために、前記第2の入力オーディオ信号を構文解析するステップと、
ドメインプロセッサによって、前記ナレッジグラフに少なくとも基づいて、前記第2の入力オーディオ信号における前記要求への応答を含む第2のデジタルコンポーネントを生成するステップと、
前記インターフェースによって、前記第2のデジタルコンポーネントを、前記第1のクライアントデバイスに送信するステップと
を含む請求項12から15のいずれか一項に記載の方法。
前記デジタルコンポーネントセレクタによって、前記第2の入力オーディオ信号における前記要求に基づいてコンテンツプロバイダを選択するステップと、
前記デジタルコンポーネントセレクタによって、前記コンテンツプロバイダへのリンクを生成するステップと、
前記デジタルコンポーネントに前記リンクを含めるステップと
を含む、請求項16に記載の方法。
前記デジタルコンポーネントセレクタによって、前記要求に基づいて第2のデータソースを選択するステップであって、前記第2のデータソースが、第2の複数のエンティティを含む、ステップと、
前記ドメインプロセッサによって、前記データソースの複数のエンティティと前記第2のデータソースの前記第2の複数のエンティティとの間の意味関係を表す前記ナレッジグラフを生成するステップと
を含む、請求項16または17に記載の方法。
前記自然言語プロセッサコンポーネントによって、および前記デジタルコンポーネントを介して、前記第1のクライアントデバイスによって検出された第2の入力信号を受信するステップと、
前記自然言語プロセッサコンポーネントによって、前記第2の入力信号における要求を識別するために、前記第2の入力信号を構文解析するステップと、
ドメインプロセッサによって、前記ナレッジグラフに少なくとも基づいて、前記第2の入力信号における前記要求への応答を含む第2のデジタルコンポーネントを生成するステップと、
前記ドメインプロセッサによって、前記第2の入力信号における前記要求に応答して、前記第2のデジタルコンポーネントを、前記第1のクライアントデバイスに送信するステップと
を含む請求項12から18のいずれか一項に記載の方法。
前記データ処理システムによって実行されるデジタルコンポーネントセレクタによって、前記第1のクライアントデバイスからコンテンツ要求を受信するステップと、
前記デジタルコンポーネントセレクタによって、前記コンテンツ要求に基づいて第2のデジタルコンポーネントを選択するステップであって、前記第2のデジタルコンポーネントが、第2のデータソースと、前記第2のデータソースに基づく第2のナレッジグラフとに関連付けられている、ステップと、
前記デジタルコンポーネントセレクタによって、前記デジタルコンポーネントをコンテンツスロットにレンダリングするために、前記第2のデジタルコンポーネントを前記第1のクライアントデバイスに送信するステップと、
前記自然言語プロセッサコンポーネントによって、前記第1のクライアントデバイスにおけるセンサによって検出された第2の入力オーディオ信号を受信するステップと、
前記自然言語プロセッサコンポーネントによって、前記入力オーディオ信号における第2の要求を識別するために、前記入力オーディオ信号を構文解析するステップと、
前記自然言語プロセッサコンポーネントによって、前記第2のナレッジグラフに基づいて前記第2の要求への応答を選択するステップと、
前記インターフェースによって、前記クライアントコンピューティングデバイスに前記応答を送信するステップと
を含む請求項12から19のいずれか一項に記載の方法。
前記デジタルコンポーネントが、前記ナレッジグラフに基づいて応答を要求するための入力インターフェースを含み、前記方法が、
前記データ処理システムの前記インターフェースによって、および前記クライアントデバイスによってレンダリングされた前記デジタルコンポーネントの前記入力インターフェースを介して、第2の検索要求を受信するステップと、
前記デジタルコンポーネントセレクタによって、および前記ナレッジグラフに基づいて、前記第2の検索要求に基づいて応答を選択するステップと、
前記データ処理システムの前記インターフェースによって、前記デジタルコンポーネント内に前記応答をレンダリングするために、前記第1のクライアントデバイスに前記応答を送信するステップと
をさらに含む、請求項12から20のいずれか一項に記載の方法。
ナレッジグラフが、前記データソースの複数のエンティティの各々を表すノードと、前記ノード間の関係を表すエッジとを含む、請求項12から21のいずれか一項に記載の方法。
前記ノード間の関係を表す前記エッジの各々の重みを計算するステップをさらに含む請求項22に記載の方法。
命令を含むコンピュータ可読媒体であって、前記命令が、コンピュータによって実行されると、前記コンピュータに、請求項12から23のいずれか一項に記載の方法を実行させる、コンピュータ可読媒体。
命令を含むコンピュータプログラム製品であって、前記命令が、コンピュータによって実行されると、前記コンピュータに、請求項12から23のいずれか一項に記載の方法を実行させる、コンピュータプログラム製品。