JP2024515899A

JP2024515899A - コンテキスト仮想エージェントによって共有コンテンツを用いてインタラクティブなエンゲージメントを向上させるシステム及び方法

Info

Publication number: JP2024515899A
Application number: JP2024507971A
Authority: JP
Inventors: マルグラーフ，ルイス，ジェームス; パブリックオーバー，ネルソン，ジョージ
Original assignee: Kibeam Learning inc
Current assignee: Kibeam Learning inc
Priority date: 2021-04-17
Filing date: 2022-04-17
Publication date: 2024-04-10
Also published as: WO2022221749A1

Abstract

複数のユーザへのシリアルコンテンツ又はデジタルコンテンツ（例えば、音声、ビデオ）の同時配信中のインタラクティブなエンゲージメントを促進するシステム及び方法が説明される。コンテンツのコンテキスト及び／又はコンテンツの提示に対する１人以上のユーザの反応のマシンベースの認識は、コンテンツのコンテキスト及び／又は１人以上のユーザの反応の認識を有する仮想エージェントを含むスニペットを散在させるため、コンテンツ配信を中断するための基礎として使用されてもよい。この「コンテキスト仮想エージェント」（ＣＶＡ）は、ユーザのグループ内の個人の識別された興味及び／又は願望と組み合わせられた、１以上のマシン分類されたコンテキストに基づいてアクション及び／又は対話を実行する。ＣＶＡは、グループにまだ配信されていないが、自然言語処理及び／又はコンピュータビジョン処理によって分類された「未来の」コンテンツのマシンベースの認識に基づいたその活動を基礎にしてもよい。ユーザのグループへのコンテンツの配信を実質的に同時に中断し、ＣＶＡによってコンテンツに関する対話を開始することにより、それらの共有されたインタラクティブな経験についてユーザが互いにエンゲージする機会が促進される。【選択図】図２

Description

関連出願データ
本願は、２０２１年４月１７日に出願された同時係属中の米国出願第１７／２３３，４７３号の優先権及び利益を主張する。

本発明は、概して、ラベル付けされた及び／又はリアルタイムで決定された、コンテンツ及び／又はユーザ反応の構成及び／又は意図（すなわち、コンテキスト）の認識に基づいて、仮想エージェント（ＶＡ）を散在させることによって、共有された視聴覚コンテンツの配信を向上させるシステム及び方法に関する。システム及び方法は、コンピュータプログラミング、電気通信、機械学習及びヒューマンマシンインタラクションの分野内の技術を利用する。音声データのコンテキストの生成された認識は、自動音声認識（ＡＳＲ）と自然言語処理（ＮＬＰ）とを実行するシステムを展開してもよい。映像データコンテキストの生成された認識は、通常は畳み込みニューラルネットワーク（ＣＮＮ）を含むマシンビジョン分類スキームを展開してもよい。仮想エージェント応答の形成には、自然言語生成（ＮＬＧ）及び音声合成の使用に加えて、例えばエンターテインメント及びゲーム業界（いわゆる「ゲームエンジン」）内で、物理法則に動作を合わせるために使用される方法が含まれてもよい。ヒューマンマシンインタラクションは、心理学及び言語学を含む認知科学内の技術を使用してもよい。システム及び方法は、配信されたコンテンツ及び／又はユーザの感情的及び／又は認知的状況の認識を表現する直観的なマシンインタフェースをユーザに提供してもよい。

本発明は、ＡＳＲ、ＮＬＰ、ＮＬＧ及び画像認識に関連する機械学習の分野における最近の進歩を利用している。これらのアプローチの核心となるのは、いわゆるディープラーニングアプローチを含む、人工ニューラルネットワーク（ＡＮＮ）の構成の範囲が拡大し続けることである。さまざまな形状、接続性及び伝達関数のＡＮＮは、さまざまな用途、必要な精度及びデータの複雑度のレベルについて分類関数を最適化するように構成され得る。ＴｅｎｓｏｒＦｌｏｗ、Ｋｅｒａｓ、ＰｙＴｏｒｃｈ、Ｃａｆｆｅ、Ｔｈｅａｎｏ及びＭＸＮＥＴを含むＡＮＮの設定、訓練及びテストに利用可能な多数のプラットフォームがある。展開時、現代のコンピュータ及びモバイル機器には、そのようなニューラルネットワークベースの計算を高速化するように設計されたマルチコアハードウェアも含まれる。

テキスト、画像及び／又は音声のマシンベースの「理解」の開発は、１９５０年のＡｌａｎＴｕｒｉｎｇ（アランチューリング）による独創的な研究に根ざしている。今日に至るまで、いわゆるチューリングテストが、（少なくとも）人間の行動を模倣するマシンベースの能力のレベルを評価するための１つの基準として使用されている。マシンが「思考をシミュレーションする」ことができるのか、それとも「実際に思考する」ことができるのかについては現在進行中の多くの議論があるが、人工知能（ＡＩ）に関連する分野の進歩により、現代のヒューマンマシンインタラクション、例えばチャットボット及び仮想エージェント（インテリジェント又はインタラクティブな仮想エージェント又はパーソナルアシスタントともいう）を容易にする。チャットボットは現在、例えば、制限されたインタラクティブ環境（例えば、声のみ、限られた範囲のトピック）内に展開され、電話又はインスタントメッセージベースの問い合わせルーティング及び／又は顧客サービスを提供している。

会話に基づくヒューマンマシンインタラクションは、自動音声認識（ＡＳＲ）及び／又は自然言語理解（ＮＬＵ）を使用して処理され得る。ＡＳＲ処理は、フィルタリングされた（すなわち、ノイズを低減するため）音素をテキスト、単語及び／又はキーワードに変換し得る。自然言語処理（ＮＬＰ）及び／又はＮＬＵは通常、複数の並列ディープラーニングストラテジを使用して、そのようなテキスト、及び／又は、例えば、文書又はディスプレイから取得されたテキストを取得して、使用されている言語の文法規範に従って単語のグループを解析し、品詞（例えば、名詞、動詞、形容詞）を識別し、かつ、キーワードから概念を識別する。より高度なＡＳＲ／ＮＬＰシステムは、いわゆる「アクティブラーニング」を使用して語彙を拡張し、かつ、さまざまなトピックに関する新しい話し方に適応する。このようなアプローチは、個々のユーザの会話パターンに適応する１つの側面でもある。

並行して、コンピュータビジョンの分野における現在の技術は、画像内のコンテンツ（例えば、前景オブジェクト、背景）を識別するために使用可能である。画像内のオブジェクトを識別するための１つのステップは、（例えば、シングルショットマルチボックス検出器（ＳＳＤ）を使用して）１以上のオブジェクトの位置を特定する境界領域（通常は長方形のボックス又は多角形）を形成することである。画像内のコンテンツの分類では、さまざまな形式の畳み込みニューラルネットワーク（ＣＮＮ）の使用が主流である。ＣＮＮアプローチの重要な側面は、視野内のそれらの位置及び／又は向きから物体の識別が独立していることである。教師あり学習は、ラベル付きオブジェクトデータセットを使用してニューラルネットワークを訓練するために使用され得、このデータセットは、タグなしの画像／ビデオデータの教師なし学習によってさらに（任意選択的に）改善及び拡張され得る。ビデオデータストリーム内のオブジェクトの現代の分類は、ビデオデータの連続的な性質を利用するために埋め込みメモリ機能を含むＣＮＮをしばしば展開する。

本明細書のシステム及び方法は、仮想アシスタント又は仮想エージェント（ＶＡ）のマシンベースの生成に関連する分野における最近の進歩も利用している。音声及び／又はビデオデータからコンテンツを識別するための上述した手順を大きく逆にして、自然言語生成（ＮＬＧ）とそれに続く音声合成又はテキスト読み上げ（ＴＴＳ）アプローチを使用してＶＡが生成されてもよい。現在のほとんどのＮＬＧプロセッサは、コンテンツ及び／又はデータの解釈を、文法的に構造化された人間が判読可能なテキストの形式に変換する。このようなテキストは、今度は、さまざまな属性（例えば、性別、方言、ロボット音声）が出力を変調するために適用され得るＴＴＳシステムへの入力として使用され得る。

ＶＡがアニメーションキャラクタ又はその他の多関節形式として提示される場合、動きは、物理法則及び／又は生体力学、若しくは、そのような形式に適用される少なくとも物理原理のサブセットによって決定され得る。モーショングラフィックデザインでは、主にゲーム及びエンターテイメント業界内で開発された動き「エンジン」及びその他のツールが使用され得る。このようなアニメーションは、単純な幾何学的図形から、髪、皮膚及びその他の詳細な属性の動きを含む複雑な動物の形状に至るまで、幅広い複雑さのスケールに適用され得る。

ＶＡを使用したヒューマンマシンインタラクションは、個人の環境及び／又はコンテキストのマシンベースの認識によって強化され得る。遠隔の個人とのインタラクションがますます画面ベースになるにつれて、共有画面（及びその他のインタラクション機器）コンテンツのコンテキスト認識は、そのようなＶＡの有効性及び受け入れの両方に役立ち得る。このような共有コンテキスト環境を監視してそれに反応するには新しいパラダイムが必要とされる。

上記を考慮して、本明細書では、シリアルコンテンツ（例えば、音声、ビデオ）又はデジタルコンテンツを消費する複数の個人を含むインタラクティブなエンゲージメントを向上させるためのシステム及び方法が提供される。本発明は、概して、コンテンツの「コンテキスト」及び／又はグループ内のインタラクションする個人の少なくとも１人のマシンベースの認識を利用すること、及び、適切なタイミングで、共有された「コンテキスト」仮想エージェント（ＣＶＡ）を含むコンテンツを散在させることに関する。コンテンツの構成及び／又は意図（すなわち、コンテンツコンテキスト）は、リアルタイムで、及び／又は、事前に割り当てられたコンテキストラベルに基づいて評価されてもよい。グループ内の１人以上の個人の反応（すなわち、個人コンテキスト）は、リアルタイムで及び／又は事前に特定された嗜好、視点、興味及び／又は個人に関連する他の側面に基づいて確認されてもよい。

適切な時間に（例えば、中断を最小限に抑えるため、及び／又は、コンテンツの流れを最大化するため）ＣＶＡを散在させることによって、すべての参加者に対して実質的に同時に、人間と人間との間、人間とマシンとの間のインタラクションの機会が向上させられてもよい。参加者間の認識と活動とを同期させることに加えて、散在されたＣＶＡは、コンテンツに関連するアクティブなエンゲージメントを高め、視聴体験及び／又はリスニング体験を共有する他人とのインタラクティブなエンゲージメントを高め、コンテキストトピックに関する対話を促進し（又は、少なくとも参加者に考えさせ）、共通の興味及び願望を識別し、及び／又は、コンテキストが変化した場合又は変化しようとしている場合に移行コンテンツを提供するのに役立ち得る。

本明細書のシステム及び方法の特に有用な態様の１つは、グループのメンバーがグループ内のメンバーの認知的及び感情的コンテキスト（例えば、興味、恐怖、願望）をより認識するのを助けるためのインタラクションツールとしてのものである。たとえある程度の距離が離れていたとしても、実質的に同時のコンテンツの共有視聴及び／又はリスニングは、（それ自体）グループインタラクション中の交流の一態様である。ただし、グループのメンバーが、メンバーの特定の嗜好、興味又はその他の態様（すなわち、個人コンテキスト）を認識していない又は感謝を感じていない場合、これらのトピック領域を（一緒に）探索する機会が失われる可能性がある。

さらなる例示的な実施形態では、そのような個人コンテキストが、識別され（例えば、１人以上の個人によって事前に特定され）、かつ、コンテンツの視聴中に生じるコンテキストと比較される場合、そのような分類における１以上の照合により、適切な時間にシリアルコンテンツを中断する機会が生成されてもよい。散在されたＣＶＡは、その後、識別されたコンテキスト及び／又はさまざまなコンテキスト間の関連性をグループ全体に指摘する対話を生成してもよい。

シリアルコンテンツの一時停止及びその後の一時停止のコンテキスト（例えば、ユーザ反応、以前に識別された興味又は嗜好）に基づいた共有ＣＶＡパフォーマンスの開始は、一時停止をトリガした１以上の個人又はソースを直接識別して又は識別せずに実行されてもよい。その嗜好、視点及び／又は反応がコンテンツの一時停止につながるユーザの身元を明らかにするかどうかは、個々のユーザ及び／又はグループの嗜好に依存してもよい。ＣＶＡの差し挟みは、ほとんどの個人が興味のあるトピックについて他人と会話を開始するほとんどの個人の傾向を利用していてもよい。一方で、ＣＶＡが、他人（すなわち、コンテンツ配信の一時停止をトリガした個人ではない他人）が例えば、恐怖又は不安を引き起こすものとしてフラグが立てられたトピックに関する対話を開始することを可能にすることが好ましい場合がある。

例示的な実施形態では、システム及び方法の一態様は、ＣＶＡを含むコンテンツを散在させるためにシリアルコンテンツの配信をいつ一時停止するかに関する。大まかに言えば、一時停止は、１）１人以上のユーザによって具体的に示された一時停止信号及び／又はコンテンツ（に関連付けられたデータセットを含む）内のラベル付け、２）コンテンツ内で分類された１以上の識別されたコンテキスト（シリアルコンテンツは、一時停止時にユーザのグループに提示されてもよく又は提示されなくてもよい）、及び／又は、３）ユーザのグループ内の１人以上の個人による、コンテンツを提示することに対する応答から分類された１以上の識別された反応、によってトリガされてもよい。例えば、中断が多すぎるとすぐに煩わしくなり得るので、ＣＶＡを含むコンテンツを散在させる時間は、例えば、個人又はグループの期限、前回の一時停止からの時間及び／又は全体的な一時停止の頻度など、他のコンテキスト及び／又はインタラクションの態様を考慮に入れてもよい。

散在されたコンテンツのコンポーネントとして含まれる「コンテキスト」仮想エージェントのアクション及び／又は明確な表現には：１）グループ内の個人（すなわち、個人コンテキスト）の１以上の以前に特定された嗜好、視点、興味又はその他の側面、２）グループに実質的に同時に提示されたシリアルコンテンツ内で識別された１以上のコンテキスト（すなわち、コンテンツコンテキスト）、３）コンテンツを実質的に同時に消費している間の１人以上の個人による１以上の識別された反応（すなわち、反応コンテキスト）、及び／又は、４）個人のグループにまだ（一時停止の時点で）提示されていないシリアルコンテンツ内で識別された１以上のコンテキスト（すなわち、その後のコンテキスト）、に基づいた１以上の「コンテキスト」が含まれてもよい。後者のコンテンツのカテゴリ（すなわち、その後のコンテキスト）は、ＣＶＡが、（コンテンツをまだ経験していない）参加者のグループに「未来の」コンテキストを予測及び／又は紹介することを可能にする。

例示的な実施形態の詳細な説明でさらに詳細に説明するように、「実質的に同時に」という用語は、複数の電子機器（及びそれらのユーザ）内でのアクションの一般的な時間的整合を示すために使用されている；ただし、そのようなアクションは、伝送遅延、計算処理時間などの要因により、正確に同期して発生しない可能性があるが、それでも、本明細書で使用される場合には実質的に同時に考慮される。また、以下に示すように、文脈上明らかに別段示されていない限り、単数形「ａ」、「ａｎ」及び「ｔｈｅ」には複数の指示対象が含まれる。

例示的な実施形態によれば、人間のエンゲージメントを促進する方法が提供され、当該方法は：複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記プロセッサに動作可能に結合されたセンサと、を備える、提供するステップと；すべての前記電子機器の出力装置上で実質的に同時に、シリアルコンテンツを配信するステップと；前記電子機器の１以上のプロセッサ及び前記電子機器の１以上のセンサのうちの１以上によって、一時停止指示を検出するステップと；前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止するステップと；前記１以上のプロセッサによって、前記シリアルコンテンツの配信の一時停止と同時に発生する１以上のシリアルコンテンツコンテキストを決定するステップと；前記１以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記１以上のシリアルコンテンツコンテキストに基づいて１人以上の人間とのインタラクションを開始するステップと、を含む。

別の例示的な実施形態によれば、人間のエンゲージメントを促進する方法が提供され、当該方法は：複数の電子機器するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、を備える、提供するステップと；すべての前記電子機器の出力装置上でシリアルコンテンツを実質的に同時に配信するステップと；１以上の前記プロセッサによって、１以上のシリアルコンテンツコンテキストを決定するステップと；１以上のプロセッサによって、前記１以上のシリアルコンテンツコンテキストが１以上の既定のコンテキストに一致することを決定するステップと；前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止するステップと；前記１以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記１以上のシリアルコンテンツコンテキストに基づいて１人以上の人間とのインタラクションを開始するステップと、を含む。

さらに別の例示的な実施形態によれば、人間のエンゲージメントを促進する方法が提供され、当該方法は：複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記プロセッサに動作可能に結合されたセンサと、を備える、提供するステップと；すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信するステップと；１人以上の人間とのインタラクションから、１以上のセンサからのインタラクションデータを取得するステップと；１以上のプロセッサを使用して、前記インタラクションデータから、前記１人以上の人間による１以上のコンテンツ反応を分類するステップと；前記１以上のプロセッサによって、前記１以上のコンテンツ反応が１以上の既定の反応に一致することを決定するステップと；前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止するステップと；前記１以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記１以上のコンテンツ反応に基づいた前記１人以上の人間とのインタラクションを開始するステップと、を含む。

別の例示的な実施形態によれば、人間のエンゲージメントを促進する方法が提供され、当該方法は：複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記プロセッサに動作可能に結合されたセンサと、を備える、提供するステップと；すべての前記電子機器の出力装置上で実質的に同時に、シリアルコンテンツを表示するステップと；前記電子機器の１以上のプロセッサ及び前記電子機器の１以上のセンサのうちの１以上によって、一時停止指示を検出するステップと；前記出力装置上で実質的に同時に前記シリアルコンテンツの表示を一時停止するステップと；前記１以上のプロセッサによって、前記シリアルコンテンツの表示の一時停止の後に１以上のその後のシリアルコンテンツコンテキストを決定するステップと；前記１以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記１以上のその後のシリアルコンテンツコンテキストに基づいて１人以上の人間とのインタラクションを開始するステップと、を含む。

さらに別の例示的な実施形態によれば、人間のエンゲージメントを促進する方法が提供され、当該方法は：複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、を備える、提供するステップと；すべての前記電子機器の出力装置上で実質的に同時に、シリアルコンテンツを表示するステップと；１以上のプロセッサによって、前記シリアルコンテンツから１以上のシリアルコンテンツコンテキストを決定するステップと；前記１以上のプロセッサによって、前記１以上のシリアルコンテンツコンテキストが１以上の既定のコンテキストに一致することを決定するステップと；前記出力装置上で実質的に同時に前記シリアルコンテンツの表示を一時停止するステップと；前記１以上のプロセッサによって、前記シリアルコンテンツから、前記シリアルコンテンツの表示の一時停止に続く１以上のその後のシリアルコンテンツコンテキストを決定するステップと；前記１以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記１以上のその後のシリアルコンテンツコンテキストに基づいて１人以上の人間とのインタラクションを開始するステップと、を含む。

別の例示的な実施形態によれば、人間のエンゲージメントを促進する方法が提供され、当該方法は：複数の電子機器を提供するステップであって、各電子機器が、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記プロセッサに動作可能に結合されたセンサと、を備える、提供するステップと；すべての前記電子機器の出力装置上に実質的に同時にシリアルコンテンツを表示するステップと；１人以上の人間とのインタラクションから、１以上のセンサからインタラクションデータを取得するステップと；１以上のプロセッサを使用して、前記インタラクションデータから、前記１人以上の人間による１以上のコンテンツ反応を分類するステップと；前記１以上のプロセッサによって、前記１以上のコンテンツ反応が１以上の既定の反応と一致することを決定するステップと；前記出力装置上で実質的に同時に前記シリアルコンテンツの表示を一時停止するステップと；前記１以上のプロセッサによって、前記シリアルコンテンツの表示の一時停止に続く１以上のその後のシリアルコンテンツコンテキストを決定するステップと；前記１以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記１以上のその後のシリアルコンテンツコンテキストに基づいて前記１人以上の人間とのインタラクションを開始するステップと、を含む。

本発明に対する必要性及び本発明の使用を含む他の態様及び特徴は、添付の図面と併せて以下の説明を考慮することにより明らかになる。

本発明のより完全な理解は、以下の例示的な図面に関連して考慮される場合に、例示的な実施形態の詳細な説明を参照することによって導き出され得る。図面において、同様の参照番号が、図面全体を通じて同様の要素又は動作を示している。提示された例示的な実施形態は添付の図面に示されている。

図１Ａは、３人の個人が彼らのそれぞれの表示装置上でシリアルコンテンツ（すなわち、ユニコーンの動きを含む漫画アニメーション）を同時に見るシナリオからのシーンを示している。図１Ｂは、図１Ａに示すシナリオからの続きであり、コンテンツコンテキスト（すなわち、ユニコーンの表示）と個人コンテキスト（すなわち、少女のそのようなおもちゃの好み）とが一致した結果、コンテンツの配信が、一時停止され、かつ、識別されたコンテキストに反応する仮想エージェントを含む視聴覚スニペットに置換される。図２は、視聴覚コンテンツのコンテキスト及び視聴者の反応に基づいてコンテキスト仮想エージェントによるセグメントが散在されるシリアルコンテンツの配信のタイムラインを示している。図３は、仮想エージェントを散在させる時間の表示が、ユーザ、タイマ及び／又はコンテンツに関連して符号化されたラベリングによる信号から決定される場合に、シリアルコンテンツの配信内にコンテキスト仮想エージェントを散在させるステップを概説するフローチャートである。図４は、仮想エージェントを散在させる時間がコンテンツのコンテキストのリアルタイム決定から確認される場合に、シリアルコンテンツの配信内にコンテキスト仮想エージェントを散在させるステップを概説するフローチャートである。図５は、１以上のユーザ反応（すなわち、少女による及び／又は近くの大人による）が使用されて、いつコンテンツの配信を中断して、コンテキスト仮想エージェントを含むコンテンツスニペットを散在させるかを決定するシナリオからのシーンを示している。図６は、仮想エージェントスニペットを散在させる時間がユーザ反応に基づいて決定される場合に、コンテンツの配信中にコンテキスト仮想エージェントを散在させるステップを概説するフローチャートである。図７は、ユーザがまだ経験していない（例えば、まだ見たり聞いたりしていない）コンテンツの１以上のコンテキストに基づいてインタラクションを開始する仮想エージェントを散在させるステップを概説するフローチャートである。図８は、仮想エージェント、ビデオチャット、魅力的な推測ゲーム及び「未来の」コンテンツ（すなわち、マシン機密化されているがユーザにまだ公開されていない）のコンテキストに関する（ゲームの一部としての）ヒントを含む、例示的な散在されたコンテキストコンポーネントの表示を示している。

例示的な実施形態を説明する前に、本発明が、本明細書で説明される特定の実施形態に限定されるものではなく、当然、変化してもよいことを理解されたい。また、本発明の範囲は添付の特許請求の範囲によってのみ限定されるので、本明細書で使用される用語は、特定の実施形態を説明することのみを目的としており、限定的なものであることを意図したものではないことも理解されたい。

別途定義されていない限り、本明細書で使用されるすべての技術用語及び科学用語は、本発明が属する技術分野の当業者によって一般に理解されるのと同じ意味を有している。本明細書及び添付の特許請求の範囲で使用される場合、文脈上特に明記されていない限り、単数形「ａ」、「ａｎ」及び「ｔｈｅ」には複数の指示対象が含まれることに留意されたい。したがって、例えば、「化合物」への言及には複数のそのような化合物が含まれ、「ポリマー」への言及には、当業者に公知のその１以上のポリマー及びその等価物への言及が含まれるなどである。

本明細書の説明内で、「実質的に同時に」という用語は、シリアルコンテンツの配信、コンテンツの配信の一時停止、並びに、人間同士のインタラクションを促進するための音声及び／又はビデオコンポーネントを含み得るＣＶＡの生成を含むアクションの実行を説明するために使用される。「実質的に同時に」とは、システム及び方法がそのようなアクションを同時に実行することを目指し得るが、その結果生じる複数の人間とのインタラクションが正確に同時に発生しない可能性があることを意味している。このような時間的な差異は、コンテンツを送受信する場合の送信遅延（特に、遠隔地にある装置への場合）、さまざまなインタラクションサイトでの（例えば、音声及びビデオデータを解凍するための）処理能力の差異、グループ同期性をさらに低下させるように累積する可能性のある短時間の送信中断、そのような短時間の中断の影響を低減するように設計された（特にビデオ）装置によるバッファリング容量の差異などを含む多くの要因の結果として発生する可能性がある。

したがって、同時インタラクションをもたらすことを意図したアクションは、通常、最大数秒の差を生じさせる可能性がある。極端な条件下（例えば、コンテンツ配信チェーン内のどこかでの長期にわたる伝送遅延又は電力の中断）では、システム及び方法は、重大な非同期の存在を検出し、かつ、（例えば、他方の装置よりも時間的に先にある１以上の装置によってコンテンツ配信を一時停止することによって）インタラクションを再同期するためのステップを講じてもよい。これが発生した場合の測定された遅延は、開発者によって事前に割り当てられてもよい。このようなアクションをトリガする可能性のある一般的な非同期は３０秒の範囲内であってもよい。このような遅延が繰り返し発生した場合及び／又は非同期が５分程度の範囲内でさらに大きくなった場合、修正アクションを可能にするためにインタラクティブセッション全体が中断されてもよい。このようなアクションは、「タイムアウト」状態としてユーザに示されてもよい。

本発明は、概して、ユーザにまだ提示されていないコンテンツ（その後のコンテンツ）を含むシリアルコンテンツの構成及び／又は意図（すなわち、コンテンツコンテキスト）、グループ内の１人以上の個人の反応（すなわち、反応コンテキスト）、及び／又は、グループ内の１人以上の個人の嗜好（すなわち、個人コンテキスト）のマシンベースの認識を占有し得るインタラクティブ仮想エージェント（ＶＡ）を含むコンテンツを散在させることによって、複数のユーザに実質的に同時にシリアルコンテンツを配信する間の人間のエンゲージメントを促進するためのシステム及び方法に関する。上記発明の概要でより詳細に説明したように、ＣＶＡは、コンテンツ内のコンテキストトピック（すなわち、提示されたコンテンツとこれから提示されるコンテンツとの両方）及び／又はグループメンバ間のコンテキストのインタラクティブな交換のための信号への個々の反応及び迅速な機会を識別する、遍在する監視装置（omnipresent monitor）とみなされてもよい。

ＣＶＡは、認知的及び／又は感情的なエンゲージメントを促進するという目標を含め、人間対人間及び人間対マシンの両方のレベルでのエンゲージメントを高めてもよい。ＣＶＡを含む散在されたコンテンツは、能動的及び受動的な視聴及び／又はリスニングの両方で関心及びエンゲージメントを高め、グループのメンバー間で話題の対話及び／又は活動を（実質的に同時に）開始し、共通の興味及び願望を識別し、及び／又は、グループコンテンツ内のトピックが変更される又は変更されようとしている場合に移行コンテキストを提供するのを助け得るＣＶＡを含む。

例示的な実施形態では、シリアルコンテンツの提示中、コンテンツのコンテキストのマシンベースの認識が生成されてもよい。シリアルコンテンツ（「デジタルコンテンツ」ともいう場合がある。）は、視聴覚データ、ビデオストリーム、映画、音声録音、複数の画像、マルチメディア提示、ポッドキャスト、オーディオブック、アプリケーションによって生成された出力（例えば、ゲーム）、アニメーションなどを含み得るマテリアルの連続的な又は「流れる」提示を含んでもよい。生成されたコンテキスト認識に基づいて、シリアルコンテンツ配信中に「コンテキスト」仮想エージェント（ＣＶＡ）が生成されて散在されてもよい。ＣＶＡは、１以上の表示漫画キャラクタ、表示動物、表示人物、表示アバター、表示アイコン、投影されたホログラム、ロボット、アニメーション玩具、表示テキスト、声及びサウンド（通常、動物、おもちゃ又はペットによって生成され得るものを含む）のうちの１以上として生成されてもよい。

ユーザは、１以上の電子インタラクション機器を介してシリアルコンテンツ及び／又はＣＶＡの配信とインタラクションしてもよい。インタラクティブ機器には、１以上のタブレット機器、携帯電話、ラップトップコンピュータ、デスクトップコンピュータ、ゲーミング装置、モニタ、テレビ、スマートディスプレイ、スピーカ、スマートスピーカ、投影装置、触覚電子ディスプレイ、仮想現実ヘッドセット、拡張現実ヘッドウェア、ホログラフィックディスプレイなどが含まれてもよい。異なる装置が、異なるユーザによって実質的に同時に使用されてもよい。個人ユーザは、インタラクティブセッション中に装置を切り替えて、例えば、固定サイト（例えば、デスクトップコンピュータ）でのインタラクションからモバイル（例えば、携帯電話などを使用する）に移行してもよい。

ＣＶＡのマシンベースの生成は、グループメンバの１人以上の欲求、好き、嫌い、興味、視点、嗜好及び／又はその他の属性（すなわち、個人コンテキスト）及び／又はコンテンツに対する１以上のユーザの反応（すなわち、反応コンテキスト）の認識を利用してもよい。これらのコンテキスト認識は、向上したコンテンツを散在させる時間を決定するだけでなく、（ＣＶＡ及び／又はその他の提示資料を介して）散在されたスニペット内で魅力的なトピックを生成するのを助けるように適用されてもよい。ＣＶＡは、例えば、１人以上のユーザの１以上の興味又は嗜好、シリアルコンテンツの１以上のコンテキスト、コンテンツコンテキストと個人コンテキスト又は反応コンテキストとの間の関係、シリアルコンテンツに対する１人以上のユーザの反応、及び／又は、今後のシリアルコンテンツの１以上のコンテキストの知識に基づいてトピックを紹介又は説明してもよい。

さらなる例示的な実施形態では、ユーザの嗜好及び／又は反応をほのめかすＣＶＡを散在させることにより、複数のユーザが、興味、感情、思索、恐怖などを含むグループ内の個人のコンテキストの認識を高めることの達成を可能にする。コンテンツコンテキスト又はグループ内の少なくとも１人の個人による反応により、シリアルコンテンツの配信が中断されたという単なる事実は、コンテキストのグループインタラクションの可能性を示している。例えば、１以上のコンテンツ又は反応コンテキストに基づいて潜在的なディスカッショントピックに関する「ナッジ（nudge）」を開始及び／又は提示するＣＶＡ（例えば、提案、アイスブレイク、ウェブベースの検索から得られる背景資料）のさらなる導入によって、グループでの対話及び交流の機会を大幅に増加させる。ＣＶＡは、異なるコンテキスト間のマシン決定の関連性（例えば、グループメンバ間で共通する好き又は嫌い、１以上の個人の興味及び今後のコンテンツの間の一致）を（任意選択的に）直接指摘してもよい。

散在されたコンテンツは、例えば、グループの他のメンバーのコンテキストをほとんど認識せずに最近紹介されたグループのメンバーと、お互いのことはよく知っているが、より深いつながりの感覚を求めている個人のグループと、にとって有益であり得る。上記の発明の概要で詳しく説明したように、ＣＶＡは、コンテキストの一致（すなわち、コンテンツ、個人、反応及び／又はその後のコンテキスト内）に関連付けられた個人のアイデンティティを明らかにするかどうかに関係なく、１以上の識別されたコンテキストを導入又は詳しく説明してもよい。

さらなる例示的な実施形態では、本明細書のシステム及び方法の別の態様は、ＣＶＡを含む拡張コンテンツを散在させるために、シリアルコンテンツの配信をいつ一時停止するかを決定することである。大まかに言えば、いつ一時停止するかを決定するためのソース（及び計算リソース）は３つのカテゴリ内で説明されてもよい：
１．シリアルコンテンツの一時停止は一時停止信号の受信時に発生してもよい。一時停止信号（通常はバイナリ）は、例えば１人以上の機器ユーザが制御する実際の又は仮想の押しボタンを使用した情報伝達の結果として発生してもよい。同様に、一時停止は、１人以上の機器ユーザが実行するジェスチャ、音又はアクションの組み合わせによって情報伝達されてもよい。さらに、一時停止する時間は、シリアルコンテンツに関連付けられた（例えば、シリアルコンテンツ内に埋め込まれた）情報伝達データを符号化することによって予め決定されてもよい。さらに、一時停止時間は、１以上の時計を使用したリアルタイム評価に依存してもよい。例えば、シリアルコンテンツの配信を一時停止するかどうかを決定する場合、前回の差し挟みからの時間、差し挟みの全体的な頻度、及び／又は、他のユーザ活動のタイミング（例えば、学校に行く又は就寝する）又は他の締め切りが考慮されてもよい。一時停止が実行されると同時に、まだ利用可能でない場合（例えば、コンテンツの事前ラベル付けの結果として）、シリアルコンテンツのコンテキストのマシンベースの決定が実行されて「コンテキスト」ＶＡの実行を助けてもよい。
２．代替又は追加として、シリアルコンテンツを一時停止するかどうか及び／又はいつ一時停止するかは、シリアルコンテンツのコンテキストのリアルタイムの決定に基づいていてもよい。コンテンツからリアルタイムで決定された１以上のコンテキストが１以上の既定のコンテキストに一致する場合、シリアルコンテンツの配信は一時停止されて、拡張コンテンツが散在されてもよい。既定のコンテキストは、例えば、グループ内の１人以上の参加者の表明された嗜好又は興味及び／又は特定のコンテンツに関連付けられた主要なコンテキストの（例えば、作家、監督又はプロデューサによって）予め組み立てられたリストに基づいていてもよい。シリアルコンテンツのコンテキストをマシンベースで決定する一変形例は、機器ユーザにまだ配信されていない又は機器ユーザによって視聴されていないコンテンツ（すなわち、その後のコンテンツ）に対してそのような決定を実行するステップを含む。これにより、ＶＡは、シリアルコンテンツに関連する今後の（例えば、「未来」を予見する）ユーザインタラクションを伴う、散在されたコンテンツのコンテキスト認識を実現する。
３．シリアルコンテンツの一時停止は、コンテンツの提示に対するユーザのグループ内の１人以上の個人の反応のリアルタイムの決定に基づいてもよい。このような反応は、１以上のカメラ（例えば、顔の表情又はジェスチャ）、１以上のマイク（例えば、特定の単語又は発話）、１以上のプロセッサ入力装置（例えば、タッチスクリーン、マウス）、又は、ユーザを感知する能力の消失（例えば、装置の近くから離れる）によってさえ感知されてもよい。シリアルコンテンツの配信を一時停止するというユーザの指示は、明白なもの（すなわち、ユーザとマシンとの両方に知られている情報伝達）であってもよく、又は、ユーザの状態（例えば、退屈している、興奮している、動揺している）のマシンベースの評価に基づいていてもよい。

これらのカテゴリの各々内でさらに詳しく説明すると、一時停止指示は、例えば、現在時刻、前回の一時停止からの経過時間、シリアルコンテンツ内のマーカ、シリアルコンテンツ内のフレーム番号、シリアルコンテンツの配信開始からの時間、シリアルコンテンツ内で識別された画像、シリアルコンテンツ内の識別された画像の組み合わせ、シリアルコンテンツ内の識別された音声、シリアルコンテンツ内の識別された音声の組み合わせ、シリアルコンテンツ内の識別された音声と識別された画像との組み合わせ、１以上のセンサによって検出された画像内の識別されたオブジェクト、１以上のセンサによって検出された複数の画像内のオブジェクトの識別された動き、１以上のセンサによって検出される実際又は仮想のボタンの押下、及び、１以上のセンサによって検出された識別された音声のうちの１以上の信号から決定されてもよい。

追加の例示的な実施形態では、そのような信号が１以上の一時停止基準を満たすかどうかを評価する１つの方法としてコンテンツデータから信号を生成するステップは、潜在的な一時停止時間（例えば、コンテンツ内の場所／時間）及び／又はシリアルコンテンツ内のコンテキストを予めラベル付けするプロセスを利用してもよい。このような潜在的な一時停止フレーム／時間を示すために幅広いオプションが利用可能である。最も単純なものは、視聴覚提示内で各一時停止がいつ発生し得るかを予め計画すること（すなわち、コンテンツの開発者又は供給者によって）と、シリアルコンテンツ内にデジタル表示を直接埋め込むことと、から構成される。コンテンツデータは、シリアルコンテンツの各セグメントのコンテキスト及び／又はコンテンツを示すために予めラベル付けされてもよい。その後、そのようなラベル付けが、予め確立された基準と比較されて（例えば、特定のオブジェクト、コンテキスト及び／又は音の識別を、確立された個人コンテキスト及び／又は嗜好と比較する）、いつＣＶＡスニペットを一時停止及び中断するかを決定してもよい。

実用レベルでは、このようなラベル付けを保存してラベル付けをシリアルコンテンツにリンクさせる数多くの方法が利用可能である。例えば、単純な情報伝達（例えば、一時停止場所のバイナリ表示）が、未使用のシリアルコンテンツ（例えば、画像の外縁を表すピクセル）に埋め込まれてもよく、又は、認識することができない効果を生み出す場所（例えば、１以上の画像ピクセル又は音声信号の下位ビット）に埋め込まれてもよい。より詳細なラベル付け（例えば、コンテキスト及びオブジェクト）は、フレームへのいわゆるポインタ及び／又はコンテンツデータ構造内の他の参照を維持する関連データセットを使用して実装されてもよい。

より高度なラベル付けは、視聴覚コンテンツセグメントを（マシンが理解可能な形式で）記述する関連データセット内で識別されたオブジェクト及び／又は音声をたどることによって実行されてもよい。視聴覚データをラベル付けするプロセスは、当技術分野ではよく知られており、かつ、サービス料金ベースで商業的に入手可能である。このようなサービスは、一般に高度に自動化されており、人間の監視及び介入によってコンテンツ内のいわゆる「グラウンドトゥルース」が保証される。このようなコンテンツのラベル付けを支援するために現在利用可能な多数（すなわち、数十）のツールの例としては、ＶｏＴＴ（ＶｉｓｕａｌｏｂｊｅｃｔＴａｇｇｉｎｇＴｏｏｌ）、ＭＡＴＬＡＢ、ＣＶＡＴ（ＣｏｍｐｕｔｅｒＶｉｓｉｏｎＡｎｎｏｔａｔｉｏｎＴｏｏｌ）、ＬａｂｅｌＭｅ、Ｄｏｃｃａｎｏ、Ｓｃｒｅｅｎｉｔｙ、ＩｍａｇｅＪなどが含まれる。

シリアルコンテンツコンテキスト内のコンテキストは、自然言語処理及び／又は画像認識処理によってリアルタイムで決定されてもよい。音声及びビデオコンテンツを分類するために利用可能なさまざまなツールは上記の背景技術のセクションで詳しく説明される。個々のセグメント内のコンテンツを含むコンテンツは、例えば、意図（例えば、教育的な、ユーモアのある）、配信のスタイル（例えば、現実的な対見せかけ）、配信の方法（音声のみ、白黒ビデオ）、ジャンル（ドラマ、ＳＦ）などに基づいて多くの分類に分類されてもよい。コンテンツは、識別されたオブジェクト、場所、前景及び背景の分類、個人、単語、言語、民族的背景、音声パターン、音量、発話、アクション、音楽、効果音、場面変化の速度、看板などに従って分類されてもよい。コンテンツは、驚き、楽しさ、恐怖、ホラー、怒り、激怒、嫌悪感、イライラ、軽蔑、悲しみ、喜び、混乱、興味、退屈、平静、不安、期待、羨望、性欲、愛情、友情などを含む個人の予想される認知的及び感情的反応に従ってさらに分類されてもよい。

同様に、配信されたコンテンツとのインタラクション中に個人によって検出された反応は、「個人コンテキスト」を識別するために使用されてもよい。上述したように、そのような分類された反応が、ユーザ反応の１以上の既定の分類（例えば、嗜好）と実質的に比較される場合、コンテンツの配信は、一時停止されてＣＶＡスニペットを散在されてもよい。ユーザによる分類及び／又は識別された反応には、驚き、楽しさ、恐怖、ホラー、怒り、激怒、嫌悪感、イライラ、軽蔑、悲しみ、喜び、混乱、興味、退屈、平静、不安、期待、羨望、性欲、愛情、友情などが含まれてもよい。個人によるそのような感情的及び認知的反応を分類するシステム及び方法は、２０２１年３月１２日に出願された同時係属中の米国特許出願第１７／２００，７２２号にさらに詳細に記載されている。

上述したさまざまな分類又は識別されたコンテキストのいずれか又はすべては、ＣＶＡ応答を生成するための基礎として使用されてもよい。言い換えると、以下は個別に又は集合してＣＶＡインタラクションスニペットの基礎となり得る：１）グループメンバに表示されたシリアルコンテンツのコンテキスト；２）まだ提示されていないコンテンツのその後（すなわち、一時停止後）のコンテキスト；３）提示されたコンテンツ又はその後のコンテンツに対する、予想される又は典型的な人間の反応（年齢、性別、社会規範、伝統などの要素を考慮する）；４）グループに関わる１人以上の個人の嗜好、視点、興味及びその他のコンテキスト要素；５）グループに関する１人以上の個人によるコンテンツ配信に対する分類された反応；及び、６）さまざまな分類又は識別されたコンテキスト間の関連性（例えば、一致、不一致、最初の出現）。

ＣＶＡは、例えば、予想される反応を確認し、特定の感情の存在に疑問を抱き、慰めの方法で行動し、感情的又は身体的反応と同様の方法で反応し（又は、バランスをとり）、コンテンツの認知的側面について説明し、グループ内の他人に、識別されたコンテンツ及び／又は個人の反応の１以上の側面についてコメントすること求め、コンテンツ又はその制作（例えば、俳優、監督）に関連する背景資料（例えば、Ｗｅｂベースの検索から）を提供し、識別又は予想された感情に関連するストーリーテリングを提供し、コンテンツに関連する追加（例えば、技術）情報を提供し、未来のコンテンツで何が明らかになるかについて推測するよう求め、グループのほとんどのメンバー（おそらく例外を示す）が１以上の共通の関心を有していることを指摘し、以前に提起されていないトピック又はコンテキストを示すなどしてもよい。さらに、ＣＶＡは、インタラクティブなゲーム、オンライン又はオフラインのベンチャー、教育提示、コミュニケーション体験、又は、ユーザ間又はＣＶＡと１人以上のユーザとの間でその他の形式のコンテキストの関連した及び／又は意味のあるソフトウェアアプリケーション及び／又はアクティビティを開始してもよい。

コンテキストアプローチが使用されて、散在されたＣＶＡベースのスニペットをいつ終了するかを決定してもよい。言い換えると、シリアルコンテンツの提示への復帰は、例えば、１人以上のグループメンバからの信号（例えば、仮想押しボタン）、グループメンバの全員又は部分集合の反応、差し挟みの経過時間、コンテキストベースのＣＶＡスクリプトの完了などによって示されてもよい。シリアルコンテンツの提示への復帰が適切又は適時であるという別のシグナルには、グループ参加者からのさらなるインタラクション又は入力（すなわち、装置センサから決定される）がない場合が含まれる。

さらなる例示的な実施形態では、ＣＶＡを実行するために必要なプログラミングのレベルは、予め確立された「ｉｆ−ｔｈｅｎ」条件及び予めスクリプト化されたインタラクションシーケンスの使用から、高度な推論マシンによって生成された出力に至るまで、展開中に幅広く変化してもよい。基本レベルでは、ＣＶＡは、予め確立されたＣＶＡ応答及び／又はアクションを介して、分類された反応に反応してもよい。現在時刻、ユーザの嗜好及び／又は分類されたコンテキストなどの既知のエンティティが、そのようなスクリプト化されたシーケンスに挿入されてもよい。スクリプトは、識別された分類に関連するグループメンバを対象とする断定的なステートメントの形式をとってもよく（例えば、「微笑んだね！」）又は質問（例えば、「怖いですか？」）の形態をとってもよい。これは、彼らの反応について他人におそらくエンゲージするようにグループの個々のメンバーを「丁寧に説得する」だけでなく、ＣＶＡアクションにより、特に、彼らが、シリアルコンテンツの共有消費中に遠隔地の個人を直接見たり聞いたりすることができない場合、グループ内の他人（例えば、両親、友人、祖父母、保護者）がそのような反応に気づくことを可能にしてもよい。このような個別のコンテキストをグループに単に指摘することによってエンゲージメントを向上させてもよい。

ＣＶＡアクションのさらなる例示的な実施形態として、ＣＶＡは、分類されたコンテンツコンテキスト（及び／又は、任意の他の既知のエンティティ）のいずれかを指摘又は記述してもよい。同様に、これは、スクリプト化されたステートメント（「猫がいる！」）又は質問（「車を見た？」）の形式で表現されてもよい。さまざまな分類されたコンテキスト間の空間的及び／又は時間的関係がそのような対話に組み込まれてもよい（例えば、「車の横にいる猫を見た？」）。特定のオブジェクト若しくはオブジェクト又は音声のクラスを分類及び／又は識別するための画像及び／又は音声認識のアプリケーションは、個人及び／又はグループのエンゲージメントをさらに向上させ得る。例えば、シリアルコンテンツ内で識別された自動車の特定の色及び／又はメーカを識別するＣＶＡによるステートメントが、自動車愛好家他の間でエンゲージメントをトリガしてもよい。同様に、映画内の特定の女優又は俳優の身元について尋ねる又は確認すると、映画鑑賞者間の対話を促進し得る、又は、鳥の鳴き声の正体によってバードウォッチャ間の交流を促進し得る。

さらなる例示的な実施形態では、ＣＶＡは、エンゲージメントの認知的側面を向上させるために、１人以上のユーザによって提供される非公開情報（例えば、グループ内のメンバーの名前及び誕生日）及び／又はパブリックドメイン（すなわち、Ｗｅｂベースの）検索ストラテジの両方を使用してもよい。一例として、シリアルコンテンツ内の恐竜のコンテキストが特定されると、Ｗｅｂベースの検索がトリガされ、恐竜が約２億年前に存在した爬虫類であることが判明してもよい。このようなコンテンツ及び／又は認知の向上をサポートするためにさまざまな検索ツール（例えば、Ｇｏｏｇｌｅ）及び情報ソース（例えば、Ｗｉｋｉｐｅｄｉａ）が利用可能である。そのようなコンテキスト検索及び／又は関連付けの結果は、グループ装置上に表示又は提示されてもよく、及び／又は、ＣＶＡによって明確に表現されてもよい。

特に図４及び図６に関連する以下の説明の中で示されるように、個人コンテキスト（例えば、嗜好、願望、好き、嫌い）が、コンテンツ及び／又はその後のコンテキストと比較されて、ＣＶＡ応答又はアクションの基礎を形成してもよい。個人コンテキストは、すべての既知のコンテキスト間の関係を決定するプロセスの一部として、他の個人コンテキスト及び／又はコンテンツ（すなわち、過去及び／又は未来の）コンテキストと比較されてもよい。一例として、コンテンツ内に犬が出現すると、コンテンツの一時停止がトリガされ、結果として（すなわち、個人コンテキストの検索時に）ＣＶＡで「ジェーンとジョンとはふたりとも犬が好きである」というコミュニケーションが行われてもよい。コンテンツを共有して消費する際に、コンテキスト内で共通の興味（嗜好、又は嫌いなもの）を指摘することは、グループメンバの間で特に魅力的であり得る。

より高度なプログラミング手法を使用すると、ＣＶＡ生成に関連する１以上のプロセッサが、（任意選択的に）人工知能でインスタンス化されてもよい。人工知能には、１人以上のユーザに馴染みのある（又はよく理解している）人格が含まれてもよい。単一の人工知能パーソナリティ（ＡＩＰ）がグループ内のすべての参加者間で共有されてもよく、ＡＩＰパーソナリティが異なってもよく、又は、グループ内の個々のユーザの受け入れを高めるためにＡＩＰ特性が適応されてもよい。後者の例として、外観（例えば、漫画的、現実的）及び／又は声（例えば、性別、方言）が個々のユーザの嗜好に基づいて調整されてもよい。ＣＶＡサイズは、特定の表示装置の画面に都合よく合うように調整されてもよい。このような共有ＡＩＰの態様は、２０１９年４月１９日に出願された米国特許第１０，７６２，４１４号、２０２０年６月１５日に出願された米国特許第１０，９１５，８１４号及び２０２０年１０月２３日に出願された米国特許第１０，９６３，８１６号でより詳しく説明されている。

シリアルコンテンツの配信を一時停止してＣＶＡを散在させるためのさまざまなトリガを例示する１つのシナリオとして、幼児と１人以上の離れた祖父母とが、恐竜が登場する漫画アニメーションの共有視聴体験中にインタラクションすることを考える。シリアルコンテンツの提示を開始してからの短い時間（すなわち、リアルタイムクロックから得られる）に基づいて、ＣＶＡは中断して、各参加者に自己紹介をさせ、かつ、場合によっては自分の気持ちを述べさせることによって、誰が視聴エクスペリエンスを共有しているのかを全員が把握することを確実にする。全員の意見を聞いてアニメーションの配信を再開すると、マシンベースの分類は、参加者全員が全体的にリラックスしていて注意力があるように見えることを示している。ただし、恐竜が突然立ち上がって大声で吠えると、幼児は悲鳴を上げる。この感知された（すなわち、音声）反応コンテキストにより、コンテンツ配信が一時停止され、「大丈夫ですか？」と尋ねるＣＶＡが散在される（すなわち、幼児が対象であるが、全員が見たり聞いたりする）。少女は、（ＣＶＡ及び祖父母に）怖がっている、及び／又は、いじめられているという感情を明らかにする。

シナリオのこの時点で、祖父母は幼児に、恐竜は通常非常に大きく、そのような轟音を立てることができると説明してもよい。ＣＶＡは、さまざまな恐竜の通常のサイズ及び外観に関する検索ベースの事実を追加してもよい。それ以上の交流が検出されない場合、シリアルコンテンツの配信は、アニメーション玩具の「スーパーヒーロー」キャラクタの陽気な導入を含むシーンまで継続される。アニメーションのコンテキスト又は１人以上の参加者が感知した笑いの兆候により、散在されたＣＶＡが「何がそんなに面白いの？」と尋ねることをトリガする。すべての参加者が、面白いように見える側面を説明することを許容した後、アニメーションのサウンドトラックがダンスミュージックに切り替わる。幼児の既定の「好き」の１つがダンスすることであることを知っているので、ＣＶＡは、シリアルコンテンツの配信を中断して「踊ろう！」と提案する。

幼児によるダンス活動を検出すると、ＣＶＡを駆動するインテントエンジンは、一時的に、ダンス活動の機会、及び、祖父母が幼児のダンス能力を賞賛する機会を提供するダンスビデオ（すなわち、別個のソフトウェアアプリケーション）にコンテンツを切り替えてもよい。その後、１人以上の祖父母が、元の恐竜アニメーションへの復帰を（例えば、仮想押しボタンを介して）情報伝達してもよい。幼児の予め特定された年齢がちょうど数え方を学ぶレベルにあることを知っている場合、ＣＶＡによる差し挟みは「スーパーヒーローは何人いますか？」と尋ねてもよい。同様の散在されたＣＶＡアクション及び活動は無期限に継続してもよい；ただし、この時点で、幼児の予め特定された就寝時間に近づいている可能性があるので、ＣＶＡはセッションを終了するよう提案する。

図面を参照すると、図１Ａは、３人の個人１０ａ、１０ｂ、１０ｃがシリアルコンテンツ（説明の目的で、従来の外観のフィルムストリップ１４内の連続画像として示されている）を同時に視聴する別のシナリオを示している。この例では、シリアルコンテンツ１４は、画面上を移動するユニコーンを含む漫画アニメーションを含む。コンテンツは、コンテンツジェネレータ及び／又はサーバとして機能する１以上の（ローカル又はリモート）プロセッサ１３ａ、１３ｂ、１３ｃを介して生成されてもよく、かつ、１以上の形式の電気通信１５を介して配信されてもよい。コンテンツは、３人の個人１０ａ、１０ｂ、１０ｃによって、彼らのそれぞれのインタラクション機器１１ａ、１１ｂ、１１ｃ上で視聴及び／又は聴取されてもよい。コンテンツ１４は、すべての機器にほぼ同時に配信され、（実質的に同時に）ユニコーンベースのシーン１２ａ、１２ｂを、デスク上に置かれた携帯電話１１ａ及びタブレット機器上で見ることができる一方で、第２タブレット機器上では見ることはできない（ただし、依然として存在する）。

図１Ｂは、図１Ａに示すシナリオの続きであり、コンテンツのコンテキスト（すなわち、ユニコーンの表示）の結果として、すべての機器１１ａ、１１ｂ、１１ｃへのシリアルコンテンツ１５の配信が、一時停止され、かつ、コンテンツコンテキストに反応する生成された仮想エージェント１６を含む視聴覚シーンによって置換される。ＣＶＡ１８Ａを表示することに加えて、ＣＶＡは、例えば、「ユニコーン」という単語を発音して、今見たものを識別し、かつ、特に少女１０ｂに対して単語の発音を強化することを助けてもよい。ＣＶＡ１８ａは、ユニコーンに関する簡単なストーリを差し挟んでもよい。追加として、コンテキスト差し挟みのさらなる例として、単語「ユニコーン」１８ｂが表示装置１１ａ、１１ｂ、１１ｃ上に綴られる。

差し挟みは、さまざまなインタラクション機器１１ａ、１１ｂ、１１ｃにおいて多少異なってもよい。これは、機器の制限（例えば、モバイル機器１１ａの比較的小さい表示画面）及び／又は異なるユーザ１０ａ、１０ｂ、１０ｃによるエンゲージメントを維持するためのストラテジの結果として生じてもよい。後者の一例として、電気通信リンク１７が、ビデオチャット用のパイプラインとして少女１０ｂと同時視聴者１０ｃのうちの１人との間に確立され、特に少女１０ｂの教育及び／又は娯楽体験をさらに強化する。図１Ｂに示すシーン内では、少女１０ｂの表示装置１１ｂ上で大人のビデオチャット画像１８ｃを見ることができるが、同時視聴者１０ｃのインタラクション機器１１ｃ上のビデオチャット中の少女の対応画像を図１Ｂで見ることはできない（ただし、それにも関わらず存在する）。

図２は、視聴覚コンテンツ及び／又はインタラクション反応のコンテキストに基づいてＣＶＡスニペットが散在されるシリアルコンテンツを配信する例示的なタイムラインを示している。シリアルコンテンツは、従来の外観のフィルムストリップ内の一連のフレーム２０ａ、２０ｂ、２０ｃ、２０ｄ、２０ｅ、２０ｆ、２０ｇとして図示されている。シリアルコンテンツ内には、ＣＶＡ２４ａ、２４ｂを含む視聴覚セグメント又はスニペット２３ａ、２３ｂが散在されている。図２はまた、コンテキストがいつ変更されようとしているか（すなわち、次の又は今後のフレーム中）を示すためにシリアルコンテンツ２２ａ、２２ｂ、２２ｇにラベル付けするデジタル信号２５も示している。

図２のタイムラインを順に辿ると、第２フレーム２０ｂ中のデジタル信号２６ａは、シリアルコンテンツが犬２０ａ、２０ｂの表示からユニコーン２２ｂの表示に切り替わろうとしていることを示している。結果として、ＣＶＡ２４ａを含む視聴覚セグメント２３ａがインタラクションコンテンツに挿入２１ａされる。このスニペット２３ａの提示が完了２１ｂすると２１ｂ、配信は、ユニコーンベースのコンテンツ２０ｃ、２０ｄを含むシリアルコンテンツの次のセグメント２２ｂに戻る。

この次の視聴覚セグメント２２ｂ内では、ユニコーン２０ｄから猫２０ｅへのコンテンツの保留中の変更の第２デジタル表示２６ｂが利用可能である。このシナリオでは、例えば、以前のＣＶＡスニペット２３ａの後に（楽しく見るには）早すぎるので、新しいＣＶＡセグメントを導入するためにこの信号２６ｂは使用されない。

ただし、シリアルコンテンツ２２ｂは、お気に入りの猫２０ｅの表示に変化する。このお気に入りのオブジェクト（例えば、ユーザの個人コンテキスト内で以前に特定されたもの）の観察された存在は、図４に示すようにシリアルコンテンツのコンテキストの分析内で認識されてもよく、及び／又は、図７に示すようにコンテンツ視聴者の反応の分類によって認識されてもよい。これらの条件のいずれか又は両方により、ＣＶＡ２４ｂを包含するスニペット２３ｂへの移行２１ｃが発生する。スニペット２３ｂの提示が完了すると、配信は、２１ｄに移行して戻り、猫２０ｆ、２０ｇを示すさらなるシーンを有するシリアルコンテンツの最終セグメント２２ｃを提供する。

図３は、ＣＶＡを散在させる時間の指示（すなわち、１以上の信号）が直接感知された場合３４ａ、シリアルコンテンツ３１ａの配信中に、ＣＶＡを含むスニペットを散在させるステップを概説するフローチャートを示している。例として、ユーザ３０（又は任意の他の人間）は、例えば、現実又は仮想の押しボタン３３ａを使用して、一時停止したいという希望を示してもよい。代替又は追加として、コンテキスト（すなわち、ラベル付きコンテンツ）及び／又は一時停止信号の表示は、シリアルコンテンツに関連付けられたデータセット内に符号化され、かつ、その後感知されてもよい３３ｃ。例えば、シリアルコンテンツには、ユニコーン３２ａから猫３２ｂへのシーンの移行を示すために予めラベル付けされていてもよい。一時停止のための指示は、例えば、以前の一時停止及びスニペット差し挟みからの経過時間を含む時間３３ｂにも依存してもよい。

一時停止条件が存在する場合３４ｂ、シリアルコンテンツ３１ａの配信は、一時停止され３４ｃ、かつ、ＣＶＡ３１ｂを含む差し挟みによって置換される。差し挟まれたスニペットのコンテンツは、部分的に、一時停止と同時に発生するシリアルコンテンツの識別（すなわち、分類）に基づいて生成されてもよい。処理には、オブジェクト３５ａの境界領域の識別及びその後のそれらのオブジェクトの識別３５ｂ、並びに／又は、自動音声認識３６ａ並びにコンテンツ及び／又は意図（すなわち、コンテキスト）を識別し得るその後の自然言語処理３６ｂを含むシリアルコンテンツの音声成分の処理が含まれてもよい。ビデオ３５ａ、３５ｂ及び／又は音声３６ａ、３６ｂの処理の結果は、その後、自然言語生成３７ａ及びアニメーション処理３７ｂへの入力として適用されて、コンテンツデータストリーム３１ｂに差し挟まれる３７ｃＣＶＡを形成してもよい。

同様に、図４は、ＣＶＡを散在させる時間の表示がシリアルコンテンツのコンテキストから決定される場合に、シリアルコンテンツの配信４１ａ内にＣＶＡを散在させるステップを示すフローチャートを示している。この場合、コンテキストは、オブジェクト４５ａの境界エリアの識別及びその後のそれらのオブジェクトの識別４５ｂを含むシリアルコンテンツのビデオ成分の処理、並びに／又は、自動音声認識４６ａ及びその後の自然言語処理４６ｂを含むコンテンツの音声成分の処理に基づいて決定される。ビデオ及び／又は音声の結果は、コンテキスト分類器４３への入力として適用されてもよい。

その後、シリアルコンテンツ４１ａの分類されたコンテキスト４３は、既定のコンテキスト分類４４ａのデータセットと比較されて、１以上のコンテキストの一致４４ｂがあるかどうかを確認してもよい。例えば、このデータセット４４ａ内の１つのコンテキストには、図４に示すように、猫４２のシリアルコンテンツ４１ａ内の外観（おそらく特定の個人４０にとって特に興味深いもの）が含まれてもよい。一致が存在しない場合、その後、シリアルコンテンツ４１ａの配信は中断されることなく継続される。一致が存在する場合、その後、シリアルコンテンツ４１ａの配信は４４ｃで一時停止され、ＣＶＡ４７ｃが生成されてコンテンツデータストリーム４１ｂ内に散在される。分類４３中に使用される同一又は類似のビデオ４５ａ、４５ｂ及び／又は音声４６ａ、４６ｂデータは、ＣＶＡ４７ｃの生成中に使用される自然言語プロセッサ４７ａ及びアニメーションジェネレータ４７ｂに適用されてもよい。

図５は、１以上のコンテキストユーザ反応（すなわち、少女５３ａ及び／又は近くの大人５５ａによる）が使用されて、ＣＶＡを含むコンテンツを散在させることによってシリアルコンテンツ５０ａの配信をいつ中断するかを決定するシナリオからのシーンを示している。このシナリオでは、シリアルコンテンツ５０ａは、少女５３ａに向けられたインタラクティブ機器５２ａ及び１以上の他の機器（図示せず）にブロードキャストされる猫５１ａの画像（及び音声）を含む。少女５３ａは、猫５１ｂの表示に対して笑顔で両手５４ａを上げて反応する。さらに、近くにいる大人５５ａも、笑顔で反応し、かつ、猫５４ｂの名前（すなわち、「ふわふわ」）を呼ぶ。これらの感知された反応のいずれか又は両方が検出されて、シリアルコンテンツの配信を一時停止するための１以上の信号として使用されてもよい。

一時停止すると、コンテンツは、ＣＶＡ５０ｂを生成し、かつ、少女５２ｂの表示装置（及び、他のユーザの１以上の装置、図示せず）にＣＶＡ５７を表示することを含むプロセスに移行する（右向きの矢印５６ａ、５６ｂで示される）。図１Ｂに示すシナリオと同様に、移行されたコンテンツには、少女５３ｂと別のユーザ５５ｂとによるビデオチャット機能が含まれる。別のコンテキスト上の挿入（インタラクションを促進するように設計される）は、少女５３ｂのディスプレイ５２ｂに、（修辞的な）質問の表示「笑った？」５８の表示である。この場合、ＣＶＡによるアクションのコンテキストベースには、配信されたシリアルコンテンツのコンテキストだけでなく、１人以上のユーザ５３ａによって検出及び分類された反応も含まれる。

図６は、ユーザ６０の１以上の反応に基づいて、コンテンツを一時停止し、その後にコンテンツを散在させるステップを概説するフローチャートである。一例として、ユーザ６０は、シリアルコンテンツ６１ａ内に示される猫６２の出現に応答してもよい。個人６０による反応は、１以上のセンサ６４ｂによって監視される。ユーザ６０の動きはカメラ６３ｂによって監視され、かつ、音声（又は他の音）はマイクロフォン６３ａによって検出されてもよい。ユーザは、画面タップ、キーボード、マウス、ジョイスティック、リモコンなどを含む他のさまざまなプロセッサ入力（図示せず）を使用して反応してもよい。

ユーザ反応は、分類され６４ｃ、かつ、既定のユーザ反応の１以上の分類６４ａと比較されてもよい（６４ｄ）。一致が存在しない場合、その後、シリアルコンテンツ６１ａの配信は途切れることなく継続する。一致が存在する場合、その後、シリアルコンテンツ６１ａの配信は一時停止６４ｅされ、ＣＶＡ６７ｃが生成されてコンテンツデータストリーム６１ｂ内に散在される。ＣＶＡは、図３及び図４に概説したのと同じ全般的なステップを使用して生成されてもよく、ビデオデータが、境界領域６５ａの識別とそれに続く画像認識６５ｂとによって処理され、音声データが自動音声認識６６ａとそれに続く自然言語処理６６ｂとによって処理される。その後、自然言語生成６７ａ及び仮想エージェントアニメーション６７ｂ中にビデオ及び音声分析が使用されてＣＶＡを形成してもよい。さらに、自然言語生成６７ａ及び仮想エージェントアニメーション６７ｂのプロセスは、ＣＶＡアクション及び／又は他の散在コンテンツを定式化する場合に、１人以上のユーザ６８の（分類を介した）既知の反応及び任意の関連付け（例えば、共通又は異なる反応）を利用してもよい。

図７は、「未来の」シリアルコンテンツの１以上のコンテキストに基づいて強化されたインタラクションを開始し得るＣＶＡ７２ｃを散在させるステップを概説するフローチャートである。未来を知るＣＶＡのこの見かけの能力は、シリアルコンテンツ７１ｄを１人以上のユーザ７０に提示する前に、そのコンテンツのコンテキストを分類することによって実装されてもよい。これにより、例えば、特に興味のあり得る今後のコンテンツについてユーザ７０が注意喚起され得るユーザ体験が可能になる。

図７において、インタラクションを散在させるためにシリアルコンテンツを一時停止する潜在的なトリガは、図３（すなわち、一時停止信号）、図４（すなわち、提示されたシリアルコンテンツ）及び／又は図６（すなわち、ユーザ反応）に示す３つの概略的な方法のいずれかを使用して生じてもよい。図７において、これらのトリガソースを実行するための経路は、全体的に破線（例えば、７３ｄ、７８ａ、７８ｃ）を使用して示されており、これらの経路を、未来のコンテンツに関する明らかな知識を有するＣＶＡ（例えば、７２ｃ）の生成を含み得るスニペット（例えば、７１ｃ）を実行するために使用される共有データ処理経路と区別しようと試みる。

シリアルコンテンツ７１ａの提示を一時停止し得るトリガには、実際の又は仮想の押しボタン７３ａ（例えば、任意のユーザによってトリガされる）、時限イベント７３ｂ、及び／又は、コンテンツに埋め込まれ得る及び／又はコンテンツ関連（例えば、ラベル付けされた）データセットから抽出され得る信号７３ｃが含まれる。代替又は追加として、提示されたコンテンツ７１ａのコンテキストは、一時停止信号（例えば、お気に入りの犬７２ａの認識から生じる一時停止）の潜在的なソースとしての包含７８ｃのために、画像７５ａ、７５ｂ及び／又は音声７６ａ、７６ｂの分類７８ｂについて処理７８ａされてもよい。さらなる実施形態では、ユーザ反応７３が、分類され、かつ、既定の反応分類７４ｂと比較されて、シリアルコンテンツの一時停止と１以上のスニペット７１ｂ、７１ｃの散在とをトリガしてもよい。

一時停止条件の存在は、いま説明したさまざまな一時停止ソース７４ａから取得され、かつ、予め確立された一時停止条件７４ｂ（例えば、１以上のユーザの好み又は嗜好）と比較されてもよい。一時停止条件が満たされない場合７４ｃ、シリアルコンテンツ７１ａの提示は単純に継続される７４ｄ。一時停止条件が満たされると、シリアルコンテンツの提示（例えば、表示及び／又は音声ブロードキャスト）が一時停止７４ｅされる。この時点で、シリアルコンテンツ７１ｄのコンテキストの処理が（密かに）継続してもよい。この処理には、ビデオデータの境界領域識別７５ａ及び画像認識７５ｂ、並びに／又は、音声データの自動音声認識７６ａ及び自然言語処理７６ｂが含まれてもよい。結果は、自然言語生成ルーチン７７ａ及びアニメーション７７ｂルーチンへの入力として使用されて、コンテキスト（未来を見据えた）仮想エージェントを生成してもよい。処理は、通常のデータストリームのブロードキャストと同等の時間経過にわたって生じてもよく、若しくは、伝送及び／又は計算リソースがそのような分析を処理するのに十分である場合には、加速された時間経過にわたって生じてもよい。

この（一般的に短い）処理時間中、未来のコンテンツに関する知識を有するＣＶＡが利用可能になることはなく、又は、ユーザ７０に表示されることはない。空白の画面の表示及び／又は音声の欠如の代替として、「未来の」コンテキストの知識を有するＣＶＡ７２ｃを含み得る提示されたシリアルコンテンツ７１ａからターゲットコンテンツ７１ｃへの移行又は連続として、（任意選択的に、破線の輪郭長方形７４ｆによって示される）コンテンツが挿入されてもよい。この任意選択的な移行コンテンツ７１ｂは、例えば、未来のコンテンツをまだ認識していない仮想エージェント７２ｂによる一般的な紹介スニペット及び／又はインタラクションを含んでもよい。

未来の知識を備えたＣＶＡ７２ｃが利用可能７７ｃになると、このＣＶＡ７２ｃを含む結果のスニペット７１ｃが、ユーザ７０（及び、図示されていない他のユーザ）による視聴及び／又は聴取のためにデータストリームに挿入されてもよい。このスニペット７１ｃが完了すると、一時停止されたシリアルデータストリーム７１ｄの提示が再開されてもよい。これらのデータは、例えば、明らかに未来を見ることができるＣＶＡ７２ｃによる実行内のコンテキストを明らかにしてもよい（例えば、次の視聴覚シーケンス７２ｄで識別されるお気に入りの猫をユーザに注意喚起する）。

図８は、ビデオチャット８２ａ、ＣＶＡ８２ｄ及び今後のシリアルコンテンツ（すなわち、マシン分類されているがまだ表示されていない）に関するヒント８２ｃを含む例示的なインタラクションコンポーネントをタブレット装置８０上に示している。この例示的なインタラクション内では、画面８０は、同時に機能する４つの領域８１ａ、８１ｂ、８１ｃ、８１ｄに分割される。右上領域８１ｂは、「ドアの後ろに何がありますか？」という質問８３ａをする（例えば、今後のシリアルコンテンツ内のオブジェクト又はアクションを参照する）ことによってユーザを引き込むように設計されている。左下領域８１ｃ内には、まだ見られていないものに関するヒント８３ｂとして、足跡８２ｃのセットが提供される。右下領域８１ｄは、「彼女はあなたのお気に入りです！」という音声交換を介してさらなるヒントを追加するＣＶＡ８２ｄを示している。同時に、左上領域８１ａは、さらなるユーザ奨励を提供する遠隔ユーザ８２ａとの同時ビデオチャットのためのエリアを示している。

エンゲージメントを強化するように設計されたこのシナリオでは、ドア８２ｂを開くと（例えば、ドアのハンドルの領域でタブレット画面をタップすることによって）、猫の画像（図示せず）が現れる。図７のシナリオ内で概説されているように、ネコ科の分類は、コンテンツの配信を一時停止するための１つの条件（すなわち、個人コンテキスト）として予め確立されてもよい。シリアルコンテンツ内に猫が今後登場すると、コンテンツ配信が一時停止され、移行素材及び／又は拡張素材が差し挟まれる。

ＣＶＡ８２ｄによって「彼女はあなたのお気に入りです！」８４と明確に表現することは、装置ユーザによって事前に設定された任意の数の「条件付きアクション」の１つとして含まれてもよい。このような条件付きアクション（すなわち、１以上の予め設定された条件が満たされた場合に未来のある時点で仮想エージェントによって実行されるアクション）を設定するさらなる態様については、２０２０年１０月２７日に出願された米国特許第１０，９６２，８１６号に詳細に説明されている。図８で説明した条件付きアクションの例では、シリアルコンテンツ内の猫の分類は、「条件」であり、かつ、仮想エージェントによって明確に表現され、猫に対する特定の感情（すなわち、「彼女はあなたのお気に入りです！」）が「アクション」である。

このような条件付きアクションを設定すると、個人（例えば、友人、両親、同僚）が仮想エージェントの見かけの知識及び／又は「現実感」を大幅に高めることを可能にし得る。任意の数の条件付きアクション（すなわち、遭遇する可能性のある状況を予測する）を予め確立することにより、個人は自身の影響力及び／又は活動を効果的に「タイムシフト」してもよい（すなわち、状況に遭遇した際に仮想エージェントによって未来のある時点で実行されることになる）。

例示的な実施形態の前述の開示は、例示及び説明を目的として提示されたものである。網羅的であること、又は、開示された詳細な形式に本発明を限定することを意図したものではない。本明細書に記載の実施形態の多くの変形及び修正は、上記の開示を考慮すれば当業者には明らかである。特定の実施形態で説明したさまざまな構成要素及び特徴は、実施形態の使用目的に応じて、他の実施形態に追加、削除及び／又は置換可能であることが理解される。

さらに、代表的な実施形態を説明する際、本明細書は、方法及び／又はプロセスを特定の一連のステップとして提示している場合がある。ただし、方法又はプロセスが本明細書に記載の特定のステップの順序に依存しない限り、方法又はプロセスは、記載された特定の一連のステップに限定されるべきではない。当業者であれば理解するように、他の一連のステップも可能であり得る。したがって、本明細書に記載されたステップの特定の順序は、特許請求の範囲を限定するものとして解釈されるべきではない。

本発明は、さまざまな修正及び代替形態を受け入れることが可能であるが、その具体例が、図面に示されており、かつ、本明細書で詳細に説明されている。本発明は、開示された特定の形態又は方法に限定されるものではなく、逆に、本発明は、添付の特許請求の範囲に含まれるすべての修正、等価物及び代替物をカバーするものであることを理解されたい。

Claims

人間のエンゲージメントを促進する方法であって、
複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記プロセッサに動作可能に結合されたセンサと、を備える、提供するステップと、
すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信するステップと、
前記電子機器の１以上のプロセッサ及び前記電子機器の１以上のセンサのうちの１以上によって、一時停止指示を検出するステップと、
前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止するステップと、
前記１以上のプロセッサによって、前記シリアルコンテンツの配信の一時停止と同時に発生する１以上のシリアルコンテンツコンテキストを決定するステップと、
前記１以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記１以上のシリアルコンテンツコンテキストに基づいて１人以上のユーザとのインタラクションを開始するステップと、を含む方法。
人間のエンゲージメントを促進する方法であって、
複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、を備える、提供するステップと、
すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信するステップと、
１以上の前記プロセッサによって、１以上のシリアルコンテンツコンテキストを決定するステップと、
前記１以上のプロセッサによって、前記１以上のシリアルコンテンツコンテキストが１以上の既定のコンテキストと一致することを決定するステップと、
前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止するステップと、
前記１以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記１以上のシリアルコンテンツコンテキストに基づいて１人以上のユーザとのインタラクションを開始するステップと、を含む方法。
人間のエンゲージメントを促進する方法であって、
複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記プロセッサに動作可能に結合されたセンサと、を備える、提供するステップと、
すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信するステップと、
１人以上のユーザとのインタラクションから、１以上のセンサからのインタラクションデータを取得するステップと、
１以上のプロセッサを使用して、前記インタラクションデータから、前記１人以上のユーザによる１以上のコンテンツ反応を分類するステップと、
１以上の前記プロセッサによって、前記１以上のコンテンツ反応が１以上の既定の反応に一致することを決定するステップと、
前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止するステップと、
前記１以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記１以上のコンテンツ反応に基づいて前記１人以上のユーザとのインタラクションを開始するステップと、を含む方法。
人間のエンゲージメントを促進する方法であって、
複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記電子機器のユーザの反応を監視するために前記プロセッサに動作可能に結合されたセンサと、を備える、提供するステップと、
すべての前記電子機器の出力装置上で実質的に同時に、すべての前記電子機器のユーザがグループとして見るシリアルコンテンツを配信するステップと、
前記電子機器の１以上のプロセッサ及び前記電子機器の１以上のセンサのうちの１以上によって、前記シリアルコンテンツに対する前記ユーザの１人以上の感情的又は表情的な反応に関連する一時停止指示を検出するステップと、
すべての前記出力装置上で実質的に同時に、前記一時停止指示に基づいて前記シリアルコンテンツの配信を一時停止するステップと、
前記１以上のプロセッサによって、前記シリアルコンテンツの配信の一時停止と同時に発生する前記シリアルコンテンツに関連する１以上のシリアルコンテンツコンテキストを決定するステップと、
前記１以上のプロセッサを使用して、すべての前記出力装置上で実質的に同時に提示される１以上の漫画のキャラクタ、表示動物、表示キャラクタ及び音声のうちの１以上として仮想エージェントを生成するステップであって、前記仮想エージェントは、前記１以上のシリアルコンテンツコンテキストに基づいて前記仮想エージェントと前記ユーザの１人以上との間の会話を含むインタラクションを開始する、生成するステップと、を含む方法。
人間のエンゲージメントを促進する方法であって、
複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、を備える、提供するステップと、
すべての前記電子機器の出力装置上で実質的に同時に、すべての前記電子機器のユーザがグループとして見るためのシリアルコンテンツを配信するステップと、
１以上の前記プロセッサによって、１以上のシリアルコンテンツコンテキストを決定するステップであって、前記１以上のシリアルコンテンツコンテキストは、１人以上の人間の感情又は反応を生成する前記シリアルコンテンツ内のシリアルコンテンツを含む、決定するステップと、
前記１以上のプロセッサによって、前記１以上のシリアルコンテンツコンテキストが１以上の既定のコンテキストと一致することを決定するステップと、
すべての前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止するステップと、
前記１以上のプロセッサを使用して、すべての前記出力装置上で実質的に同時に提示される１以上の漫画キャラクタ、表示動物、表示キャラクタ及び音声のうちの１以上として仮想エージェントを生成するステップであって、前記仮想エージェントは、前記１以上のシリアルコンテンツコンテキストに基づいて前記仮想エージェントと前記ユーザの１人以上との間の会話を含むインタラクションを開始する、生成するステップと、を含む方法。
人間のエンゲージメントを促進する方法であって、
複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記プロセッサに動作可能に結合されたセンサと、を備える、提供するステップと、
すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信するステップと、
前記電子機器の１以上のプロセッサ及び前記電子機器の１以上のセンサのうちの１以上によって一時停止指示を検出するステップと、
前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止するステップと、
前記１以上のプロセッサによって、前記シリアルコンテンツの配信の一時停止に続く１以上のその後のシリアルコンテンツコンテキストを決定するステップと、
前記１以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記１以上のその後のシリアルコンテンツコンテキストに基づいて１人以上のユーザとのインタラクションを開始するステップと、を含む方法。
人間のエンゲージメントを促進する方法であって、
複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、を備える、提供するステップと、
すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信するステップと、
１以上のプロセッサによって、前記シリアルコンテンツから１以上のシリアルコンテンツコンテキストを決定するステップと、
前記１以上のプロセッサによって、前記１以上のシリアルコンテンツコンテキストが１以上の既定のコンテキストと一致することを決定するステップと、
前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止するステップと、
前記１以上のプロセッサによって、前記シリアルコンテンツから、前記シリアルコンテンツの配信の一時停止に続く１以上のその後のシリアルコンテンツコンテキストを決定するステップと、
前記１以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記１以上のその後のシリアルコンテンツコンテキストに基づいて１人以上のユーザとのインタラクションを開始するステップと、を含む方法。
人間のエンゲージメントを促進する方法であって、
複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記プロセッサに動作可能に結合されたセンサと、を備える、提供するステップと、
すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信するステップと、
１人以上のユーザとのインタラクションから、１以上のセンサからインタラクションデータを取得するステップと、
１以上のプロセッサを使用して、前記１人以上のユーザによる１以上のコンテンツ反応を前記インタラクションデータから分類するステップと、
前記１以上のプロセッサによって、前記１以上のコンテンツ反応が１以上の既定の反応と一致することを決定するステップと、
前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止するステップと、
前記１以上のプロセッサによって、前記シリアルコンテンツの配信の一時停止に続く１以上のその後のシリアルコンテンツコンテキストを決定するステップと、
前記１以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記１以上のその後のシリアルコンテンツコンテキストに基づいて前記１人以上のユーザとのインタラクションを開始するステップと、を含む、方法。
人間とマシンとのエンゲージメントを促進する方法であって、
プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記プロセッサに動作可能に結合されたセンサと、を備える電子機器をユーザの近くに提供するステップと、
前記出力装置上でシリアルコンテンツを配信するステップと、
前記プロセッサ及び前記センサの一方又は両方によって一時停止指示を検出するステップと、
前記出力装置上で前記シリアルコンテンツの配信を一時停止するステップと、
前記プロセッサによって、前記シリアルコンテンツの配信の一時停止に続く１以上のその後のシリアルコンテンツコンテキストを決定するステップと、
前記プロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記１以上のその後のシリアルコンテンツコンテキストに基づいて前記ユーザとのインタラクションを開始するステップと、を含む方法。
人間とマシンとのエンゲージメントを促進する方法であって、
プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記プロセッサに動作可能に結合されたセンサと、を備える電子機器をユーザの近くに提供するステップと、
前記出力装置上でシリアルコンテンツを配信するステップと、
前記プロセッサによって、前記シリアルコンテンツから１以上のシリアルコンテンツコンテキストを決定するステップと、
前記プロセッサによって、前記１以上のシリアルコンテンツコンテキストが１以上の既定のコンテキストと一致することを決定するステップと、
前記出力装置上で前記シリアルコンテンツの配信を一時停止するステップと、
前記プロセッサによって、前記シリアルコンテンツから、前記シリアルコンテンツの配信の一時停止に続く１以上のその後のシリアルコンテンツコンテキストを決定するステップと、
前記プロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記１以上のその後のシリアルコンテンツコンテキストに基づいて前記ユーザとのインタラクションを開始するステップと、を含む方法。
人間とマシンとのエンゲージメントを促進する方法であって、
プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記プロセッサに動作可能に結合されたセンサと、を備える電子機器をユーザの近くに提供するステップと、
前記出力装置上でシリアルコンテンツを配信するステップと、
前記ユーザとのインタラクションから、前記センサからのインタラクションデータを取得するステップと、
前記プロセッサを使用して、前記インタラクションデータから、前記ユーザによる１以上のコンテンツ反応を分類するステップと、
前記プロセッサによって、前記１以上のコンテンツ反応が１以上の既定の反応と一致することを決定するステップと、
前記出力装置上で前記シリアルコンテンツの配信を一時停止するステップと、
前記プロセッサによって、前記シリアルコンテンツの配信の一時停止に続く１以上のその後のシリアルコンテンツコンテキストを決定するステップと、
前記プロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記１以上のその後のシリアルコンテンツコンテキストに基づいて前記ユーザとのインタラクションを開始するステップと、を含む方法。
前記電子機器の各々は、１以上のタブレット機器、携帯電話、ラップトップコンピュータ、デスクトップコンピュータ、ゲーミング機器、モニタ、テレビ、スマートディスプレイ、スピーカ、スマートスピーカ、投影装置、触覚電子ディスプレイ、仮想現実ヘッドセット、拡張現実ヘッドウェア及びホログラフィックディスプレイのうちの１以上を含む、請求項１～８のいずれか１項に記載の方法。
前記電子機器は、１以上のタブレット機器、携帯電話、ラップトップコンピュータ、デスクトップコンピュータ、ゲーミング機器、モニタ、テレビ、スマートディスプレイ、スピーカ、スマートスピーカ、投影装置、触覚電子ディスプレイ、仮想現実ヘッドセット、拡張現実ヘッドウェア及びホログラフィックディスプレイのうちの１以上を含む、請求項９～１１のいずれか１項に記載の方法。
前記シリアルコンテンツは、視聴覚データ、ビデオストリーム、映画、音声録音、複数の画像、マルチメディア提示、ポッドキャスト、オーディオブック、アプリケーションによって生成された出力、及び、アニメーションのうちの１以上を含む、請求項１～１１のいずれか１項に記載の方法。
前記シリアルコンテンツコンテキストは、前記シリアルコンテンツの１以上のセグメントのコンテキストラベリングを取得するステップ、自然言語処理によって前記シリアルコンテンツを分類するステップ、及び、画像認識処理により前記シリアルコンテンツを分類するステップのうちの１以上によって決定される、請求項１、２及び４～１１のいずれか１項に記載の方法。
前記１以上のシリアルコンテンツコンテキストが、驚き、娯楽、恐怖、ホラー、怒り、激怒、嫌悪、イライラ、軽蔑、悲しみ、喜び、混乱、興味、退屈、平静、不安、期待、羨望、性欲、愛情及び友情のうちの１以上の１以上の人間の感情を生成するシリアルコンテンツを含む、請求項１、２及び４～１１のいずれか１項に記載の方法。
前記一時停止指示は、現在時刻、前回の一時停止からの経過時間、前記シリアルコンテンツ内のマーカ、前記シリアルコンテンツ内のフレーム番号、前記シリアルコンテンツの配信開始からの時間、前記シリアルコンテンツ内の識別された画像、前記シリアルコンテンツ内の識別された画像の組み合わせ、前記シリアルコンテンツ内の識別された音声、前記シリアルコンテンツ内の識別された音声の組み合わせ、前記シリアルコンテンツ内の識別された音声と識別された画像との組み合わせ、前記１以上のセンサによって検出された画像内の識別されたオブジェクト、前記１以上のセンサによって検出された複数の画像内のオブジェクトの識別された動き、前記１以上のセンサによって検出されたボタンの押下、及び、前記１以上のセンサによって検出された識別された音声のうちの１以上から決定される、請求項１、４、６及び９のいずれか１項に記載の方法。
前記仮想エージェントは、１以上の漫画キャラクタ、表示動物、表示人物、表示アバター、表示アイコン、投影ホログラム、ロボット、アニメーション玩具、表示テキスト、声及びサウンドのうちの１以上として生成される、請求項１～１１のいずれか１項に記載の方法。
前記プロセッサが人工知能によってインスタンス化される、請求項１～１１のいずれか１項に記載の方法。
前記プロセッサは、１以上のリモートプロセッサに動作可能に接続される、請求項１～１１のいずれか１項に記載の方法。
前記１人以上のユーザとの前記インタラクションから、少なくとも１つの前記電子機器のセンサからインタラクションデータを取得するステップと、
１以上のプロセッサを使用して、前記インタラクションデータから、前記１人以上のユーザによる１以上のコンテンツ反応を分類するステップと、
前記１以上のプロセッサを使用してすべての前記出力装置上で生成された前記仮想エージェントによって、前記１以上のコンテンツ反応に基づいて前記１人以上のユーザとの１以上の追加のインタラクションを開始するステップと、をさらに含む、請求項１、２、４～７、９及び１０のいずれか１項に記載の方法。
前記シリアルコンテンツの配信を一時停止した後、前記１以上のプロセッサによって、１以上のその後のシリアルコンテンツコンテキストを決定するステップをさらに含む、請求項１～５のいずれか１項に記載の方法。
前記１人以上のユーザとの前記インタラクションを開始するステップは、前記１以上のプロセッサを使用する前記出力装置上で、前記１以上のその後のシリアルコンテンツコンテキストに基づいて前記１人以上のユーザとの１以上のインタラクションを開始するステップを含む、請求項２２に記載の方法。
前記１人以上のユーザとの前記インタラクションから、１以上のセンサからインタラクションデータを取得するステップと、
１以上のプロセッサを使用して、前記インタラクションデータから、前記１人以上のユーザによる１以上のコンテンツ反応を分類するステップと、
前記１以上のプロセッサを使用して前記出力装置上で生成された前記仮想エージェントによって、前記１以上のコンテンツ反応に基づいて、前記１人以上のユーザとの１以上の追加のインタラクションを開始するステップと、をさらに含む、請求項１、２、６、７、９及び１０のいずれか１項に記載の方法。
人間のエンゲージメントを促進するシステムであって、
複数の電子機器であって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記電子機器のユーザの反応を監視するために前記プロセッサに動作可能に結合されたセンサと、を備える、複数の電子機器を備え、
前記電子機器は、
すべての前記電子機器の出力装置上で実質的に同時に、すべての前記電子機器のユーザがグループとして見るためのシリアルコンテンツを配信し、
前記電子機器の１以上のプロセッサ及び前記電子機器の１以上のセンサのうちの１以上によって、前記シリアルコンテンツに対する前記ユーザの１人以上の感情的又は表情的な反応に関連する一時停止指示を検出し、
すべての前記出力装置上で実質的に同時に、前記一時停止指示に基づいて前記シリアルコンテンツの配信を一時停止し、
前記１以上のプロセッサによって、前記シリアルコンテンツの配信の一時停止と同時に発生する前記シリアルコンテンツに関連する１以上のシリアルコンテンツコンテキストを決定し、
前記１以上のプロセッサを使用して、すべての前記出力装置上で実質的に同時に提示される１以上の漫画キャラクタ、表示動物、表示キャラクタ及び声のうちの１以上として仮想エージェントを生成するステップであって、前記仮想エージェントは、前記１以上のシリアルコンテンツコンテキストに基づいて前記仮想エージェントと前記ユーザの１人以上との間の会話を含むインタラクションを開始するように構成される、システム。
人間のエンゲージメントを促進するシステムであって、
複数の電子機器であって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記電子機器のユーザの反応を監視するために前記プロセッサに動作可能に結合されたセンサと、を備える、複数の電子機器を備え、
前記電子機器は、
すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信し、
前記電子機器の１以上のプロセッサ及び前記電子機器の１以上のセンサのうちの１以上によって、１人以上の前記ユーザの反応に関連する一時停止指示を検出し、
すべての前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止し、
前記１以上のプロセッサによって、前記シリアルコンテンツの配信の一時停止と同時に発生する１以上のシリアルコンテンツコンテキストを決定し、
前記１以上のプロセッサを使用してすべての前記出力装置上で生成された仮想エージェントによって、前記１以上のシリアルコンテンツコンテキストに基づいて１人以上のユーザとのインタラクションを開始するように構成される、システム。
人間のエンゲージメントを促進するシステムであって、
複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記プロセッサに動作可能に結合されたセンサと、を備える、提供するステップを含み、
前記電子機器は、
すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信し、
１人以上のユーザとのインタラクションから、１以上のセンサからインタラクションデータを取得し、
１以上のプロセッサを使用して、前記インタラクションデータから、前記１人以上のユーザによる１以上のコンテンツ反応を分類し、
前記１以上のプロセッサによって、前記１以上のコンテンツ反応が１以上の既定の反応と一致することを決定し、
前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止し、
前記１以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記１以上のコンテンツ反応に基づいて前記１人以上のユーザとのインタラクションを開始するように構成される、システム。
人間のエンゲージメントを促進するシステムであって、
複数の電子機器であって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、を備える、複数の電子機器を備え、
前記電子機器は、
すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信し、
１以上の前記プロセッサによって、１以上のシリアルコンテンツコンテキストを決定し、
１以上のプロセッサによって、前記１以上のシリアルコンテンツコンテキストが１以上の既定のコンテキストと一致することを決定し、
前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止し、
前記１以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記１以上のシリアルコンテンツコンテキストに基づいて１人以上のユーザとのインタラクションを開始するように構成される、システム。
人間のエンゲージメントを促進するシステムであって、
複数の電子機器であって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記電子機器のユーザの反応を監視するために前記プロセッサに動作可能に結合されたセンサと、を備える、複数の電子機器を備え、
前記電子機器は、
すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信し、
前記電子機器の１以上のプロセッサ及び前記電子機器の１以上のセンサのうちの１以上によって、１人以上の前記ユーザの反応に関連する一時停止指示を検出し、
すべての前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止し、
前記１以上のプロセッサによって、前記シリアルコンテンツの配信の一時停止と同時に発生する１以上のシリアルコンテンツコンテキストを決定し、
前記１以上のプロセッサを使用してすべての前記出力装置上で生成された仮想エージェントによって、前記１以上のシリアルコンテンツコンテキストに基づいて１人以上のユーザとのインタラクションを開始するように構成される、システム。
人間のエンゲージメントを促進するシステムであって、
複数の電子機器であって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記電子機器のユーザの反応を監視するために前記プロセッサに動作可能に結合されたセンサと、を備える、複数の電子機器を備え、
前記電子機器は、
すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信し、
前記電子機器の１以上のプロセッサ及び前記電子機器の１以上のセンサのうちの１以上によって一時停止指示を検出し、
前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止し、
前記１以上のプロセッサによって、前記シリアルコンテンツの配信の一時停止に続く１以上のその後のシリアルコンテンツコンテキストを決定し、
前記１以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記１以上のその後のシリアルコンテンツコンテキストに基づいて１人以上のユーザとのインタラクションを開始するように構成される、システム。
人間のエンゲージメントを促進するシステムであって、
複数の電子機器であって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記電子機器のユーザの反応を監視するために前記プロセッサに動作可能に結合されたセンサと、を備える、複数の電子機器を備え、
前記電子機器は、
すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信し、
１以上のプロセッサによって、前記シリアルコンテンツから、１以上のシリアルコンテンツコンテキストを決定し、
前記１以上のプロセッサによって、前記１以上のシリアルコンテンツコンテキストが１以上の既定のコンテキストと一致することを決定し、
前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止し、
前記１以上のプロセッサによって、前記シリアルコンテンツから、前記シリアルコンテンツの配信の一時停止に続く１以上のその後のシリアルコンテンツコンテキストを決定し、
前記１以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記１以上のその後のシリアルコンテンツコンテキストに基づいて１人以上のユーザとのインタラクションを開始するように構成される、システム。
人間のエンゲージメントを促進するシステムであって、
複数の電子機器であって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記電子機器のユーザの反応を監視するために前記プロセッサに動作可能に結合されたセンサと、を備える、複数の電子機器と、を備え、
前記電子機器は、
すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信し、
１人以上のユーザとのインタラクションから、１以上のセンサからインタラクションデータを取得し、
１以上のプロセッサを使用して、前記インタラクションデータから、前記１人以上のユーザによる１以上のコンテンツ反応を分類し、
前記１以上のプロセッサによって、前記１以上のコンテンツ反応が１以上の既定の反応と一致することを決定し、
前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止し、
前記１以上のプロセッサによって、前記シリアルコンテンツの配信の一時停止に続く１以上のその後のシリアルコンテンツコンテキストを決定し、
前記１以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記１以上のその後のシリアルコンテンツコンテキストに基づいて前記１人以上のユーザとのインタラクションを開始するように構成される、システム。
人間とマシンとのエンゲージメントを促進するシステムであって、
プロセッサと、前記プロセッサに動作可能に結合された出力装置と、ユーザの反応を監視するために前記プロセッサに動作可能に結合されたセンサと、を備える、前記ユーザの近くに提供される電子機器を備え、
前記電子機器は、
前記出力装置上でシリアルコンテンツを配信し、
前記プロセッサ及び前記センサの一方又は両方によって一時停止指示を検出し、
前記出力装置上で前記シリアルコンテンツの表示を一時停止し、
前記プロセッサによって、前記シリアルコンテンツの表示の一時停止に続く１以上のその後のシリアルコンテンツコンテキストを決定し、
前記プロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記１以上のその後のシリアルコンテンツコンテキストに基づいて前記ユーザとのインタラクションを開始するように構成される、システム。
人間とマシンとのエンゲージメントを促進するシステムであって、
プロセッサと、前記プロセッサに動作可能に結合された出力装置と、ユーザの反応を監視するために前記プロセッサに動作可能に結合されたセンサと、を備える、前記ユーザの近くに提供される電子機器を備え、
前記電子機器は、
前記出力装置上でシリアルコンテンツを配信し、
前記プロセッサによって、前記シリアルコンテンツから１以上のシリアルコンテンツコンテキストを決定し、
前記プロセッサによって、前記１以上のシリアルコンテンツコンテキストが１以上の既定のコンテキストと一致することを決定し、
前記出力装置上の前記シリアルコンテンツの配信を一時停止し、
前記プロセッサによって、前記シリアルコンテンツから、前記シリアルコンテンツの配信の一時停止に続く１以上のその後のシリアルコンテンツコンテキストを決定し、
前記プロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記１以上のその後のシリアルコンテンツコンテキストに基づいて前記ユーザとのインタラクションを開始するように構成される、システム。
人間とマシンとのエンゲージメントを促進するシステムであって、
プロセッサと、前記プロセッサに動作可能に結合された出力装置と、ユーザの反応を監視するために前記プロセッサに動作可能に結合されたセンサと、を備える、前記ユーザの近くに提供される電子機器を備え、
前記電子機器は、
前記出力装置上でシリアルコンテンツを配信し、
前記ユーザとのインタラクションから、前記センサからインタラクションデータを取得し、
前記プロセッサを使用して、前記インタラクションデータから、前記ユーザによる１以上のコンテンツの反応を分類し、
前記プロセッサによって、前記１以上のコンテンツ反応が１以上の既定の反応と一致することを決定し、
前記出力装置上で前記シリアルコンテンツの配信を一時停止し、
前記プロセッサによって、前記シリアルコンテンツの配信の一時停止に続く１以上のその後のシリアルコンテンツコンテキストを決定するステップと、
前記プロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記１以上のその後のシリアルコンテンツコンテキストに基づいて前記ユーザとのインタラクションを開始するように構成される、システム。
前記電子機器の各々は、１以上のタブレット機器、携帯電話、ラップトップコンピュータ、デスクトップコンピュータ、ゲーミング機器、モニタ、テレビ、スマートディスプレイ、スピーカ、スマートスピーカ、投影装置、触覚電子ディスプレイ、仮想現実ヘッドセット、拡張現実ヘッドウェア及びホログラフィックディスプレイのうちの１以上を備える、請求項２５～３２のいずれか１項に記載のシステム。
前記電子機器は、１以上のタブレット機器、携帯電話、ラップトップコンピュータ、デスクトップコンピュータ、ゲーミング機器、モニタ、テレビ、スマートディスプレイ、スピーカ、スマートスピーカ、投影装置、触覚電子ディスプレイ、仮想現実ヘッドセット、拡張現実ヘッドウェア及びホログラフィックディスプレイのうちの１以上を備える、請求項３３～３５のいずれか１項に記載のシステム。
前記シリアルコンテンツは、視聴覚データ、ビデオストリーム、映画、音声録音、複数の画像、マルチメディア提示、ポッドキャスト、オーディオブック、アプリケーションによって生成された出力、及び、アニメーションのうちの１以上を含む、請求項２５～３５のいずれか１項に記載のシステム。
前記シリアルコンテンツコンテキストは、前記シリアルコンテンツの１以上のセグメントのコンテキストラベリングを取得するステップ、自然言語処理によって前記シリアルコンテンツを分類するステップ、及び、画像認識処理により前記シリアルコンテンツを分類するステップのうちの１以上によって決定される、請求項２５～２６及び２８～３５のいずれか１項に記載のシステム。
前記１以上のシリアルコンテンツコンテキストが、驚き、娯楽、恐怖、ホラー、怒り、激怒、嫌悪、イライラ、軽蔑、悲しみ、喜び、混乱、興味、退屈、平静、不安、期待、羨望、性欲、愛情及び友情のうちの１以上の人間の感情を生成するシリアルコンテンツを含む、請求項２５～２６及び２８～３５のいずれか１項に記載のシステム。
前記一時停止指示は、現在時刻、前回の一時停止からの経過時間、前記シリアルコンテンツ内のマーカ、前記シリアルコンテンツ内のフレーム番号、前記シリアルコンテンツの配信開始からの時間、前記シリアルコンテンツ内の識別された画像、前記シリアルコンテンツ内の識別された画像の組み合わせ、前記シリアルコンテンツ内の識別された音声、前記シリアルコンテンツ内の識別された音声の組み合わせ、前記シリアルコンテンツ内の識別された音声と識別された画像との組み合わせ、前記１以上のセンサによって検出された画像内の識別されたオブジェクト、前記１以上のセンサによって検出された複数の画像内のオブジェクトの識別された動き、前記１以上のセンサによって検出されたボタンの押下、及び、前記１以上のセンサによって検出された識別された音声のうちの１以上から決定される、請求項２５、２６、２８、２９及び３２のいずれか１項に記載のシステム。
前記仮想エージェントは、１以上の漫画キャラクタ、表示動物、表示人物、表示アバター、表示アイコン、投影されたホログラム、ロボット、アニメーション玩具、表示テキスト、声及びサウンドのうちの１以上として生成される、請求項２５～３５のいずれか１項に記載のシステム。
前記プロセッサは人工知能によってインスタンス化される、請求項２５～３５のいずれか１項に記載のシステム。
前記プロセッサは、１以上のリモートプロセッサに動作可能に接続される、請求項２５～３５のいずれか１項に記載のシステム。
前記１人以上のユーザとの前記インタラクションから、少なくとも１つの前記電子機器の前記センサからインタラクションデータを取得するステップと、
前記１以上のプロセッサを使用して、前記インタラクションデータから、前記１人以上のユーザによる１以上のコンテンツ反応を分類するステップと、
前記１以上のプロセッサを使用してすべての前記出力装置上で生成された仮想エージェントによって、前記１以上のコンテンツ反応に基づいて前記１人以上のユーザとの１以上の追加のインタラクションを開始するステップと、をさらに含む、請求項２５～２７及び２９～３５のいずれか１項に記載のシステム。
前記１以上のシリアルコンテンツコンテキストが１以上の既定のコンテキストと一致することを決定すると、前記１以上のプロセッサによって、前記シリアルコンテンツの配信の一時停止後の１以上のその後のシリアルコンテンツコンテキストを決定するステップをさらに含む、請求項２５～２９のいずれか１項に記載のシステム。
前記１人以上のユーザとの前記インタラクションを開始するステップは、前記１以上のプロセッサを使用して前記出力装置上で、前記１以上のその後のシリアルコンテンツコンテキストに基づいて前記１人以上のユーザとの１以上のインタラクションを開始するステップを含む、請求項４６に記載のシステム。
前記１人以上のユーザとの前記インタラクションから、１以上のセンサからインタラクションデータを取得するステップと、
１以上のプロセッサを使用して、前記インタラクションデータから、前記１人以上のユーザによる１以上のコンテンツ反応を分類するステップと、
前記１以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記１以上のコンテンツ反応に基づいて、前記１人以上のユーザとの１以上の追加のインタラクションを開始するステップと、をさらに含む、請求項２５、２６及び２９～３２のいずれか１項に記載のシステム。