JP2024515899A - コンテキスト仮想エージェントによって共有コンテンツを用いてインタラクティブなエンゲージメントを向上させるシステム及び方法 - Google Patents

コンテキスト仮想エージェントによって共有コンテンツを用いてインタラクティブなエンゲージメントを向上させるシステム及び方法 Download PDF

Info

Publication number
JP2024515899A
JP2024515899A JP2024507971A JP2024507971A JP2024515899A JP 2024515899 A JP2024515899 A JP 2024515899A JP 2024507971 A JP2024507971 A JP 2024507971A JP 2024507971 A JP2024507971 A JP 2024507971A JP 2024515899 A JP2024515899 A JP 2024515899A
Authority
JP
Japan
Prior art keywords
content
processor
serial
processors
contexts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2024507971A
Other languages
English (en)
Inventor
マルグラーフ,ルイス,ジェームス
パブリックオーバー,ネルソン,ジョージ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kibeam Learning inc
Original Assignee
Kibeam Learning inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/233,473 external-priority patent/US11366997B2/en
Application filed by Kibeam Learning inc filed Critical Kibeam Learning inc
Publication of JP2024515899A publication Critical patent/JP2024515899A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23424Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

複数のユーザへのシリアルコンテンツ又はデジタルコンテンツ(例えば、音声、ビデオ)の同時配信中のインタラクティブなエンゲージメントを促進するシステム及び方法が説明される。コンテンツのコンテキスト及び/又はコンテンツの提示に対する1人以上のユーザの反応のマシンベースの認識は、コンテンツのコンテキスト及び/又は1人以上のユーザの反応の認識を有する仮想エージェントを含むスニペットを散在させるため、コンテンツ配信を中断するための基礎として使用されてもよい。この「コンテキスト仮想エージェント」(CVA)は、ユーザのグループ内の個人の識別された興味及び/又は願望と組み合わせられた、1以上のマシン分類されたコンテキストに基づいてアクション及び/又は対話を実行する。CVAは、グループにまだ配信されていないが、自然言語処理及び/又はコンピュータビジョン処理によって分類された「未来の」コンテンツのマシンベースの認識に基づいたその活動を基礎にしてもよい。ユーザのグループへのコンテンツの配信を実質的に同時に中断し、CVAによってコンテンツに関する対話を開始することにより、それらの共有されたインタラクティブな経験についてユーザが互いにエンゲージする機会が促進される。【選択図】図2

Description

関連出願データ
本願は、2021年4月17日に出願された同時係属中の米国出願第17/233,473号の優先権及び利益を主張する。
本発明は、概して、ラベル付けされた及び/又はリアルタイムで決定された、コンテンツ及び/又はユーザ反応の構成及び/又は意図(すなわち、コンテキスト)の認識に基づいて、仮想エージェント(VA)を散在させることによって、共有された視聴覚コンテンツの配信を向上させるシステム及び方法に関する。システム及び方法は、コンピュータプログラミング、電気通信、機械学習及びヒューマンマシンインタラクションの分野内の技術を利用する。音声データのコンテキストの生成された認識は、自動音声認識(ASR)と自然言語処理(NLP)とを実行するシステムを展開してもよい。映像データコンテキストの生成された認識は、通常は畳み込みニューラルネットワーク(CNN)を含むマシンビジョン分類スキームを展開してもよい。仮想エージェント応答の形成には、自然言語生成(NLG)及び音声合成の使用に加えて、例えばエンターテインメント及びゲーム業界(いわゆる「ゲームエンジン」)内で、物理法則に動作を合わせるために使用される方法が含まれてもよい。ヒューマンマシンインタラクションは、心理学及び言語学を含む認知科学内の技術を使用してもよい。システム及び方法は、配信されたコンテンツ及び/又はユーザの感情的及び/又は認知的状況の認識を表現する直観的なマシンインタフェースをユーザに提供してもよい。
本発明は、ASR、NLP、NLG及び画像認識に関連する機械学習の分野における最近の進歩を利用している。これらのアプローチの核心となるのは、いわゆるディープラーニングアプローチを含む、人工ニューラルネットワーク(ANN)の構成の範囲が拡大し続けることである。さまざまな形状、接続性及び伝達関数のANNは、さまざまな用途、必要な精度及びデータの複雑度のレベルについて分類関数を最適化するように構成され得る。TensorFlow、Keras、PyTorch、Caffe、Theano及びMXNETを含むANNの設定、訓練及びテストに利用可能な多数のプラットフォームがある。展開時、現代のコンピュータ及びモバイル機器には、そのようなニューラルネットワークベースの計算を高速化するように設計されたマルチコアハードウェアも含まれる。
テキスト、画像及び/又は音声のマシンベースの「理解」の開発は、1950年のAlan Turing(アラン チューリング)による独創的な研究に根ざしている。今日に至るまで、いわゆるチューリングテストが、(少なくとも)人間の行動を模倣するマシンベースの能力のレベルを評価するための1つの基準として使用されている。マシンが「思考をシミュレーションする」ことができるのか、それとも「実際に思考する」ことができるのかについては現在進行中の多くの議論があるが、人工知能(AI)に関連する分野の進歩により、現代のヒューマンマシンインタラクション、例えばチャットボット及び仮想エージェント(インテリジェント又はインタラクティブな仮想エージェント又はパーソナルアシスタントともいう)を容易にする。チャットボットは現在、例えば、制限されたインタラクティブ環境(例えば、声のみ、限られた範囲のトピック)内に展開され、電話又はインスタントメッセージベースの問い合わせルーティング及び/又は顧客サービスを提供している。
会話に基づくヒューマンマシンインタラクションは、自動音声認識(ASR)及び/又は自然言語理解(NLU)を使用して処理され得る。ASR処理は、フィルタリングされた(すなわち、ノイズを低減するため)音素をテキスト、単語及び/又はキーワードに変換し得る。自然言語処理(NLP)及び/又はNLUは通常、複数の並列ディープラーニングストラテジを使用して、そのようなテキスト、及び/又は、例えば、文書又はディスプレイから取得されたテキストを取得して、使用されている言語の文法規範に従って単語のグループを解析し、品詞(例えば、名詞、動詞、形容詞)を識別し、かつ、キーワードから概念を識別する。より高度なASR/NLPシステムは、いわゆる「アクティブラーニング」を使用して語彙を拡張し、かつ、さまざまなトピックに関する新しい話し方に適応する。このようなアプローチは、個々のユーザの会話パターンに適応する1つの側面でもある。
並行して、コンピュータビジョンの分野における現在の技術は、画像内のコンテンツ(例えば、前景オブジェクト、背景)を識別するために使用可能である。画像内のオブジェクトを識別するための1つのステップは、(例えば、シングルショットマルチボックス検出器(SSD)を使用して)1以上のオブジェクトの位置を特定する境界領域(通常は長方形のボックス又は多角形)を形成することである。画像内のコンテンツの分類では、さまざまな形式の畳み込みニューラルネットワーク(CNN)の使用が主流である。CNNアプローチの重要な側面は、視野内のそれらの位置及び/又は向きから物体の識別が独立していることである。教師あり学習は、ラベル付きオブジェクトデータセットを使用してニューラルネットワークを訓練するために使用され得、このデータセットは、タグなしの画像/ビデオデータの教師なし学習によってさらに(任意選択的に)改善及び拡張され得る。ビデオデータストリーム内のオブジェクトの現代の分類は、ビデオデータの連続的な性質を利用するために埋め込みメモリ機能を含むCNNをしばしば展開する。
本明細書のシステム及び方法は、仮想アシスタント又は仮想エージェント(VA)のマシンベースの生成に関連する分野における最近の進歩も利用している。音声及び/又はビデオデータからコンテンツを識別するための上述した手順を大きく逆にして、自然言語生成(NLG)とそれに続く音声合成又はテキスト読み上げ(TTS)アプローチを使用してVAが生成されてもよい。現在のほとんどのNLGプロセッサは、コンテンツ及び/又はデータの解釈を、文法的に構造化された人間が判読可能なテキストの形式に変換する。このようなテキストは、今度は、さまざまな属性(例えば、性別、方言、ロボット音声)が出力を変調するために適用され得るTTSシステムへの入力として使用され得る。
VAがアニメーションキャラクタ又はその他の多関節形式として提示される場合、動きは、物理法則及び/又は生体力学、若しくは、そのような形式に適用される少なくとも物理原理のサブセットによって決定され得る。モーショングラフィックデザインでは、主にゲーム及びエンターテイメント業界内で開発された動き「エンジン」及びその他のツールが使用され得る。このようなアニメーションは、単純な幾何学的図形から、髪、皮膚及びその他の詳細な属性の動きを含む複雑な動物の形状に至るまで、幅広い複雑さのスケールに適用され得る。
VAを使用したヒューマンマシンインタラクションは、個人の環境及び/又はコンテキストのマシンベースの認識によって強化され得る。遠隔の個人とのインタラクションがますます画面ベースになるにつれて、共有画面(及びその他のインタラクション機器)コンテンツのコンテキスト認識は、そのようなVAの有効性及び受け入れの両方に役立ち得る。このような共有コンテキスト環境を監視してそれに反応するには新しいパラダイムが必要とされる。
上記を考慮して、本明細書では、シリアルコンテンツ(例えば、音声、ビデオ)又はデジタルコンテンツを消費する複数の個人を含むインタラクティブなエンゲージメントを向上させるためのシステム及び方法が提供される。本発明は、概して、コンテンツの「コンテキスト」及び/又はグループ内のインタラクションする個人の少なくとも1人のマシンベースの認識を利用すること、及び、適切なタイミングで、共有された「コンテキスト」仮想エージェント(CVA)を含むコンテンツを散在させることに関する。コンテンツの構成及び/又は意図(すなわち、コンテンツコンテキスト)は、リアルタイムで、及び/又は、事前に割り当てられたコンテキストラベルに基づいて評価されてもよい。グループ内の1人以上の個人の反応(すなわち、個人コンテキスト)は、リアルタイムで及び/又は事前に特定された嗜好、視点、興味及び/又は個人に関連する他の側面に基づいて確認されてもよい。
適切な時間に(例えば、中断を最小限に抑えるため、及び/又は、コンテンツの流れを最大化するため)CVAを散在させることによって、すべての参加者に対して実質的に同時に、人間と人間との間、人間とマシンとの間のインタラクションの機会が向上させられてもよい。参加者間の認識と活動とを同期させることに加えて、散在されたCVAは、コンテンツに関連するアクティブなエンゲージメントを高め、視聴体験及び/又はリスニング体験を共有する他人とのインタラクティブなエンゲージメントを高め、コンテキストトピックに関する対話を促進し(又は、少なくとも参加者に考えさせ)、共通の興味及び願望を識別し、及び/又は、コンテキストが変化した場合又は変化しようとしている場合に移行コンテンツを提供するのに役立ち得る。
本明細書のシステム及び方法の特に有用な態様の1つは、グループのメンバーがグループ内のメンバーの認知的及び感情的コンテキスト(例えば、興味、恐怖、願望)をより認識するのを助けるためのインタラクションツールとしてのものである。たとえある程度の距離が離れていたとしても、実質的に同時のコンテンツの共有視聴及び/又はリスニングは、(それ自体)グループインタラクション中の交流の一態様である。ただし、グループのメンバーが、メンバーの特定の嗜好、興味又はその他の態様(すなわち、個人コンテキスト)を認識していない又は感謝を感じていない場合、これらのトピック領域を(一緒に)探索する機会が失われる可能性がある。
さらなる例示的な実施形態では、そのような個人コンテキストが、識別され(例えば、1人以上の個人によって事前に特定され)、かつ、コンテンツの視聴中に生じるコンテキストと比較される場合、そのような分類における1以上の照合により、適切な時間にシリアルコンテンツを中断する機会が生成されてもよい。散在されたCVAは、その後、識別されたコンテキスト及び/又はさまざまなコンテキスト間の関連性をグループ全体に指摘する対話を生成してもよい。
シリアルコンテンツの一時停止及びその後の一時停止のコンテキスト(例えば、ユーザ反応、以前に識別された興味又は嗜好)に基づいた共有CVAパフォーマンスの開始は、一時停止をトリガした1以上の個人又はソースを直接識別して又は識別せずに実行されてもよい。その嗜好、視点及び/又は反応がコンテンツの一時停止につながるユーザの身元を明らかにするかどうかは、個々のユーザ及び/又はグループの嗜好に依存してもよい。CVAの差し挟みは、ほとんどの個人が興味のあるトピックについて他人と会話を開始するほとんどの個人の傾向を利用していてもよい。一方で、CVAが、他人(すなわち、コンテンツ配信の一時停止をトリガした個人ではない他人)が例えば、恐怖又は不安を引き起こすものとしてフラグが立てられたトピックに関する対話を開始することを可能にすることが好ましい場合がある。
例示的な実施形態では、システム及び方法の一態様は、CVAを含むコンテンツを散在させるためにシリアルコンテンツの配信をいつ一時停止するかに関する。大まかに言えば、一時停止は、1)1人以上のユーザによって具体的に示された一時停止信号及び/又はコンテンツ(に関連付けられたデータセットを含む)内のラベル付け、2)コンテンツ内で分類された1以上の識別されたコンテキスト(シリアルコンテンツは、一時停止時にユーザのグループに提示されてもよく又は提示されなくてもよい)、及び/又は、3)ユーザのグループ内の1人以上の個人による、コンテンツを提示することに対する応答から分類された1以上の識別された反応、によってトリガされてもよい。例えば、中断が多すぎるとすぐに煩わしくなり得るので、CVAを含むコンテンツを散在させる時間は、例えば、個人又はグループの期限、前回の一時停止からの時間及び/又は全体的な一時停止の頻度など、他のコンテキスト及び/又はインタラクションの態様を考慮に入れてもよい。
散在されたコンテンツのコンポーネントとして含まれる「コンテキスト」仮想エージェントのアクション及び/又は明確な表現には:1)グループ内の個人(すなわち、個人コンテキスト)の1以上の以前に特定された嗜好、視点、興味又はその他の側面、2)グループに実質的に同時に提示されたシリアルコンテンツ内で識別された1以上のコンテキスト(すなわち、コンテンツコンテキスト)、3)コンテンツを実質的に同時に消費している間の1人以上の個人による1以上の識別された反応(すなわち、反応コンテキスト)、及び/又は、4)個人のグループにまだ(一時停止の時点で)提示されていないシリアルコンテンツ内で識別された1以上のコンテキスト(すなわち、その後のコンテキスト)、に基づいた1以上の「コンテキスト」が含まれてもよい。後者のコンテンツのカテゴリ(すなわち、その後のコンテキスト)は、CVAが、(コンテンツをまだ経験していない)参加者のグループに「未来の」コンテキストを予測及び/又は紹介することを可能にする。
例示的な実施形態の詳細な説明でさらに詳細に説明するように、「実質的に同時に」という用語は、複数の電子機器(及びそれらのユーザ)内でのアクションの一般的な時間的整合を示すために使用されている;ただし、そのようなアクションは、伝送遅延、計算処理時間などの要因により、正確に同期して発生しない可能性があるが、それでも、本明細書で使用される場合には実質的に同時に考慮される。また、以下に示すように、文脈上明らかに別段示されていない限り、単数形「a」、「an」及び「the」には複数の指示対象が含まれる。
例示的な実施形態によれば、人間のエンゲージメントを促進する方法が提供され、当該方法は:複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記プロセッサに動作可能に結合されたセンサと、を備える、提供するステップと;すべての前記電子機器の出力装置上で実質的に同時に、シリアルコンテンツを配信するステップと;前記電子機器の1以上のプロセッサ及び前記電子機器の1以上のセンサのうちの1以上によって、一時停止指示を検出するステップと;前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止するステップと;前記1以上のプロセッサによって、前記シリアルコンテンツの配信の一時停止と同時に発生する1以上のシリアルコンテンツコンテキストを決定するステップと;前記1以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記1以上のシリアルコンテンツコンテキストに基づいて1人以上の人間とのインタラクションを開始するステップと、を含む。
別の例示的な実施形態によれば、人間のエンゲージメントを促進する方法が提供され、当該方法は:複数の電子機器するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、を備える、提供するステップと;すべての前記電子機器の出力装置上でシリアルコンテンツを実質的に同時に配信するステップと;1以上の前記プロセッサによって、1以上のシリアルコンテンツコンテキストを決定するステップと;1以上のプロセッサによって、前記1以上のシリアルコンテンツコンテキストが1以上の既定のコンテキストに一致することを決定するステップと;前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止するステップと;前記1以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記1以上のシリアルコンテンツコンテキストに基づいて1人以上の人間とのインタラクションを開始するステップと、を含む。
さらに別の例示的な実施形態によれば、人間のエンゲージメントを促進する方法が提供され、当該方法は:複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記プロセッサに動作可能に結合されたセンサと、を備える、提供するステップと;すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信するステップと;1人以上の人間とのインタラクションから、1以上のセンサからのインタラクションデータを取得するステップと;1以上のプロセッサを使用して、前記インタラクションデータから、前記1人以上の人間による1以上のコンテンツ反応を分類するステップと;前記1以上のプロセッサによって、前記1以上のコンテンツ反応が1以上の既定の反応に一致することを決定するステップと;前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止するステップと;前記1以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記1以上のコンテンツ反応に基づいた前記1人以上の人間とのインタラクションを開始するステップと、を含む。
別の例示的な実施形態によれば、人間のエンゲージメントを促進する方法が提供され、当該方法は:複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記プロセッサに動作可能に結合されたセンサと、を備える、提供するステップと;すべての前記電子機器の出力装置上で実質的に同時に、シリアルコンテンツを表示するステップと;前記電子機器の1以上のプロセッサ及び前記電子機器の1以上のセンサのうちの1以上によって、一時停止指示を検出するステップと;前記出力装置上で実質的に同時に前記シリアルコンテンツの表示を一時停止するステップと;前記1以上のプロセッサによって、前記シリアルコンテンツの表示の一時停止の後に1以上のその後のシリアルコンテンツコンテキストを決定するステップと;前記1以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記1以上のその後のシリアルコンテンツコンテキストに基づいて1人以上の人間とのインタラクションを開始するステップと、を含む。
さらに別の例示的な実施形態によれば、人間のエンゲージメントを促進する方法が提供され、当該方法は:複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、を備える、提供するステップと;すべての前記電子機器の出力装置上で実質的に同時に、シリアルコンテンツを表示するステップと;1以上のプロセッサによって、前記シリアルコンテンツから1以上のシリアルコンテンツコンテキストを決定するステップと;前記1以上のプロセッサによって、前記1以上のシリアルコンテンツコンテキストが1以上の既定のコンテキストに一致することを決定するステップと;前記出力装置上で実質的に同時に前記シリアルコンテンツの表示を一時停止するステップと;前記1以上のプロセッサによって、前記シリアルコンテンツから、前記シリアルコンテンツの表示の一時停止に続く1以上のその後のシリアルコンテンツコンテキストを決定するステップと;前記1以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記1以上のその後のシリアルコンテンツコンテキストに基づいて1人以上の人間とのインタラクションを開始するステップと、を含む。
別の例示的な実施形態によれば、人間のエンゲージメントを促進する方法が提供され、当該方法は:複数の電子機器を提供するステップであって、各電子機器が、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記プロセッサに動作可能に結合されたセンサと、を備える、提供するステップと;すべての前記電子機器の出力装置上に実質的に同時にシリアルコンテンツを表示するステップと;1人以上の人間とのインタラクションから、1以上のセンサからインタラクションデータを取得するステップと;1以上のプロセッサを使用して、前記インタラクションデータから、前記1人以上の人間による1以上のコンテンツ反応を分類するステップと;前記1以上のプロセッサによって、前記1以上のコンテンツ反応が1以上の既定の反応と一致することを決定するステップと;前記出力装置上で実質的に同時に前記シリアルコンテンツの表示を一時停止するステップと;前記1以上のプロセッサによって、前記シリアルコンテンツの表示の一時停止に続く1以上のその後のシリアルコンテンツコンテキストを決定するステップと;前記1以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記1以上のその後のシリアルコンテンツコンテキストに基づいて前記1人以上の人間とのインタラクションを開始するステップと、を含む。
本発明に対する必要性及び本発明の使用を含む他の態様及び特徴は、添付の図面と併せて以下の説明を考慮することにより明らかになる。
本発明のより完全な理解は、以下の例示的な図面に関連して考慮される場合に、例示的な実施形態の詳細な説明を参照することによって導き出され得る。図面において、同様の参照番号が、図面全体を通じて同様の要素又は動作を示している。提示された例示的な実施形態は添付の図面に示されている。
図1Aは、3人の個人が彼らのそれぞれの表示装置上でシリアルコンテンツ(すなわち、ユニコーンの動きを含む漫画アニメーション)を同時に見るシナリオからのシーンを示している。 図1Bは、図1Aに示すシナリオからの続きであり、コンテンツコンテキスト(すなわち、ユニコーンの表示)と個人コンテキスト(すなわち、少女のそのようなおもちゃの好み)とが一致した結果、コンテンツの配信が、一時停止され、かつ、識別されたコンテキストに反応する仮想エージェントを含む視聴覚スニペットに置換される。 図2は、視聴覚コンテンツのコンテキスト及び視聴者の反応に基づいてコンテキスト仮想エージェントによるセグメントが散在されるシリアルコンテンツの配信のタイムラインを示している。 図3は、仮想エージェントを散在させる時間の表示が、ユーザ、タイマ及び/又はコンテンツに関連して符号化されたラベリングによる信号から決定される場合に、シリアルコンテンツの配信内にコンテキスト仮想エージェントを散在させるステップを概説するフローチャートである。 図4は、仮想エージェントを散在させる時間がコンテンツのコンテキストのリアルタイム決定から確認される場合に、シリアルコンテンツの配信内にコンテキスト仮想エージェントを散在させるステップを概説するフローチャートである。 図5は、1以上のユーザ反応(すなわち、少女による及び/又は近くの大人による)が使用されて、いつコンテンツの配信を中断して、コンテキスト仮想エージェントを含むコンテンツスニペットを散在させるかを決定するシナリオからのシーンを示している。 図6は、仮想エージェントスニペットを散在させる時間がユーザ反応に基づいて決定される場合に、コンテンツの配信中にコンテキスト仮想エージェントを散在させるステップを概説するフローチャートである。 図7は、ユーザがまだ経験していない(例えば、まだ見たり聞いたりしていない)コンテンツの1以上のコンテキストに基づいてインタラクションを開始する仮想エージェントを散在させるステップを概説するフローチャートである。 図8は、仮想エージェント、ビデオチャット、魅力的な推測ゲーム及び「未来の」コンテンツ(すなわち、マシン機密化されているがユーザにまだ公開されていない)のコンテキストに関する(ゲームの一部としての)ヒントを含む、例示的な散在されたコンテキストコンポーネントの表示を示している。
例示的な実施形態を説明する前に、本発明が、本明細書で説明される特定の実施形態に限定されるものではなく、当然、変化してもよいことを理解されたい。また、本発明の範囲は添付の特許請求の範囲によってのみ限定されるので、本明細書で使用される用語は、特定の実施形態を説明することのみを目的としており、限定的なものであることを意図したものではないことも理解されたい。
別途定義されていない限り、本明細書で使用されるすべての技術用語及び科学用語は、本発明が属する技術分野の当業者によって一般に理解されるのと同じ意味を有している。本明細書及び添付の特許請求の範囲で使用される場合、文脈上特に明記されていない限り、単数形「a」、「an」及び「the」には複数の指示対象が含まれることに留意されたい。したがって、例えば、「化合物」への言及には複数のそのような化合物が含まれ、「ポリマー」への言及には、当業者に公知のその1以上のポリマー及びその等価物への言及が含まれるなどである。
本明細書の説明内で、「実質的に同時に」という用語は、シリアルコンテンツの配信、コンテンツの配信の一時停止、並びに、人間同士のインタラクションを促進するための音声及び/又はビデオコンポーネントを含み得るCVAの生成を含むアクションの実行を説明するために使用される。「実質的に同時に」とは、システム及び方法がそのようなアクションを同時に実行することを目指し得るが、その結果生じる複数の人間とのインタラクションが正確に同時に発生しない可能性があることを意味している。このような時間的な差異は、コンテンツを送受信する場合の送信遅延(特に、遠隔地にある装置への場合)、さまざまなインタラクションサイトでの(例えば、音声及びビデオデータを解凍するための)処理能力の差異、グループ同期性をさらに低下させるように累積する可能性のある短時間の送信中断、そのような短時間の中断の影響を低減するように設計された(特にビデオ)装置によるバッファリング容量の差異などを含む多くの要因の結果として発生する可能性がある。
したがって、同時インタラクションをもたらすことを意図したアクションは、通常、最大数秒の差を生じさせる可能性がある。極端な条件下(例えば、コンテンツ配信チェーン内のどこかでの長期にわたる伝送遅延又は電力の中断)では、システム及び方法は、重大な非同期の存在を検出し、かつ、(例えば、他方の装置よりも時間的に先にある1以上の装置によってコンテンツ配信を一時停止することによって)インタラクションを再同期するためのステップを講じてもよい。これが発生した場合の測定された遅延は、開発者によって事前に割り当てられてもよい。このようなアクションをトリガする可能性のある一般的な非同期は30秒の範囲内であってもよい。このような遅延が繰り返し発生した場合及び/又は非同期が5分程度の範囲内でさらに大きくなった場合、修正アクションを可能にするためにインタラクティブセッション全体が中断されてもよい。このようなアクションは、「タイムアウト」状態としてユーザに示されてもよい。
本発明は、概して、ユーザにまだ提示されていないコンテンツ(その後のコンテンツ)を含むシリアルコンテンツの構成及び/又は意図(すなわち、コンテンツコンテキスト)、グループ内の1人以上の個人の反応(すなわち、反応コンテキスト)、及び/又は、グループ内の1人以上の個人の嗜好(すなわち、個人コンテキスト)のマシンベースの認識を占有し得るインタラクティブ仮想エージェント(VA)を含むコンテンツを散在させることによって、複数のユーザに実質的に同時にシリアルコンテンツを配信する間の人間のエンゲージメントを促進するためのシステム及び方法に関する。上記発明の概要でより詳細に説明したように、CVAは、コンテンツ内のコンテキストトピック(すなわち、提示されたコンテンツとこれから提示されるコンテンツとの両方)及び/又はグループメンバ間のコンテキストのインタラクティブな交換のための信号への個々の反応及び迅速な機会を識別する、遍在する監視装置(omnipresent monitor)とみなされてもよい。
CVAは、認知的及び/又は感情的なエンゲージメントを促進するという目標を含め、人間対人間及び人間対マシンの両方のレベルでのエンゲージメントを高めてもよい。CVAを含む散在されたコンテンツは、能動的及び受動的な視聴及び/又はリスニングの両方で関心及びエンゲージメントを高め、グループのメンバー間で話題の対話及び/又は活動を(実質的に同時に)開始し、共通の興味及び願望を識別し、及び/又は、グループコンテンツ内のトピックが変更される又は変更されようとしている場合に移行コンテキストを提供するのを助け得るCVAを含む。
例示的な実施形態では、シリアルコンテンツの提示中、コンテンツのコンテキストのマシンベースの認識が生成されてもよい。シリアルコンテンツ(「デジタルコンテンツ」ともいう場合がある。)は、視聴覚データ、ビデオストリーム、映画、音声録音、複数の画像、マルチメディア提示、ポッドキャスト、オーディオブック、アプリケーションによって生成された出力(例えば、ゲーム)、アニメーションなどを含み得るマテリアルの連続的な又は「流れる」提示を含んでもよい。生成されたコンテキスト認識に基づいて、シリアルコンテンツ配信中に「コンテキスト」仮想エージェント(CVA)が生成されて散在されてもよい。CVAは、1以上の表示漫画キャラクタ、表示動物、表示人物、表示アバター、表示アイコン、投影されたホログラム、ロボット、アニメーション玩具、表示テキスト、声及びサウンド(通常、動物、おもちゃ又はペットによって生成され得るものを含む)のうちの1以上として生成されてもよい。
ユーザは、1以上の電子インタラクション機器を介してシリアルコンテンツ及び/又はCVAの配信とインタラクションしてもよい。インタラクティブ機器には、1以上のタブレット機器、携帯電話、ラップトップコンピュータ、デスクトップコンピュータ、ゲーミング装置、モニタ、テレビ、スマートディスプレイ、スピーカ、スマートスピーカ、投影装置、触覚電子ディスプレイ、仮想現実ヘッドセット、拡張現実ヘッドウェア、ホログラフィックディスプレイなどが含まれてもよい。異なる装置が、異なるユーザによって実質的に同時に使用されてもよい。個人ユーザは、インタラクティブセッション中に装置を切り替えて、例えば、固定サイト(例えば、デスクトップコンピュータ)でのインタラクションからモバイル(例えば、携帯電話などを使用する)に移行してもよい。
CVAのマシンベースの生成は、グループメンバの1人以上の欲求、好き、嫌い、興味、視点、嗜好及び/又はその他の属性(すなわち、個人コンテキスト)及び/又はコンテンツに対する1以上のユーザの反応(すなわち、反応コンテキスト)の認識を利用してもよい。これらのコンテキスト認識は、向上したコンテンツを散在させる時間を決定するだけでなく、(CVA及び/又はその他の提示資料を介して)散在されたスニペット内で魅力的なトピックを生成するのを助けるように適用されてもよい。CVAは、例えば、1人以上のユーザの1以上の興味又は嗜好、シリアルコンテンツの1以上のコンテキスト、コンテンツコンテキストと個人コンテキスト又は反応コンテキストとの間の関係、シリアルコンテンツに対する1人以上のユーザの反応、及び/又は、今後のシリアルコンテンツの1以上のコンテキストの知識に基づいてトピックを紹介又は説明してもよい。
さらなる例示的な実施形態では、ユーザの嗜好及び/又は反応をほのめかすCVAを散在させることにより、複数のユーザが、興味、感情、思索、恐怖などを含むグループ内の個人のコンテキストの認識を高めることの達成を可能にする。コンテンツコンテキスト又はグループ内の少なくとも1人の個人による反応により、シリアルコンテンツの配信が中断されたという単なる事実は、コンテキストのグループインタラクションの可能性を示している。例えば、1以上のコンテンツ又は反応コンテキストに基づいて潜在的なディスカッショントピックに関する「ナッジ(nudge)」を開始及び/又は提示するCVA(例えば、提案、アイスブレイク、ウェブベースの検索から得られる背景資料)のさらなる導入によって、グループでの対話及び交流の機会を大幅に増加させる。CVAは、異なるコンテキスト間のマシン決定の関連性(例えば、グループメンバ間で共通する好き又は嫌い、1以上の個人の興味及び今後のコンテンツの間の一致)を(任意選択的に)直接指摘してもよい。
散在されたコンテンツは、例えば、グループの他のメンバーのコンテキストをほとんど認識せずに最近紹介されたグループのメンバーと、お互いのことはよく知っているが、より深いつながりの感覚を求めている個人のグループと、にとって有益であり得る。上記の発明の概要で詳しく説明したように、CVAは、コンテキストの一致(すなわち、コンテンツ、個人、反応及び/又はその後のコンテキスト内)に関連付けられた個人のアイデンティティを明らかにするかどうかに関係なく、1以上の識別されたコンテキストを導入又は詳しく説明してもよい。
さらなる例示的な実施形態では、本明細書のシステム及び方法の別の態様は、CVAを含む拡張コンテンツを散在させるために、シリアルコンテンツの配信をいつ一時停止するかを決定することである。大まかに言えば、いつ一時停止するかを決定するためのソース(及び計算リソース)は3つのカテゴリ内で説明されてもよい:
1.シリアルコンテンツの一時停止は一時停止信号の受信時に発生してもよい。一時停止信号(通常はバイナリ)は、例えば1人以上の機器ユーザが制御する実際の又は仮想の押しボタンを使用した情報伝達の結果として発生してもよい。同様に、一時停止は、1人以上の機器ユーザが実行するジェスチャ、音又はアクションの組み合わせによって情報伝達されてもよい。さらに、一時停止する時間は、シリアルコンテンツに関連付けられた(例えば、シリアルコンテンツ内に埋め込まれた)情報伝達データを符号化することによって予め決定されてもよい。さらに、一時停止時間は、1以上の時計を使用したリアルタイム評価に依存してもよい。例えば、シリアルコンテンツの配信を一時停止するかどうかを決定する場合、前回の差し挟みからの時間、差し挟みの全体的な頻度、及び/又は、他のユーザ活動のタイミング(例えば、学校に行く又は就寝する)又は他の締め切りが考慮されてもよい。一時停止が実行されると同時に、まだ利用可能でない場合(例えば、コンテンツの事前ラベル付けの結果として)、シリアルコンテンツのコンテキストのマシンベースの決定が実行されて「コンテキスト」VAの実行を助けてもよい。
2.代替又は追加として、シリアルコンテンツを一時停止するかどうか及び/又はいつ一時停止するかは、シリアルコンテンツのコンテキストのリアルタイムの決定に基づいていてもよい。コンテンツからリアルタイムで決定された1以上のコンテキストが1以上の既定のコンテキストに一致する場合、シリアルコンテンツの配信は一時停止されて、拡張コンテンツが散在されてもよい。既定のコンテキストは、例えば、グループ内の1人以上の参加者の表明された嗜好又は興味及び/又は特定のコンテンツに関連付けられた主要なコンテキストの(例えば、作家、監督又はプロデューサによって)予め組み立てられたリストに基づいていてもよい。シリアルコンテンツのコンテキストをマシンベースで決定する一変形例は、機器ユーザにまだ配信されていない又は機器ユーザによって視聴されていないコンテンツ(すなわち、その後のコンテンツ)に対してそのような決定を実行するステップを含む。これにより、VAは、シリアルコンテンツに関連する今後の(例えば、「未来」を予見する)ユーザインタラクションを伴う、散在されたコンテンツのコンテキスト認識を実現する。
3.シリアルコンテンツの一時停止は、コンテンツの提示に対するユーザのグループ内の1人以上の個人の反応のリアルタイムの決定に基づいてもよい。このような反応は、1以上のカメラ(例えば、顔の表情又はジェスチャ)、1以上のマイク(例えば、特定の単語又は発話)、1以上のプロセッサ入力装置(例えば、タッチスクリーン、マウス)、又は、ユーザを感知する能力の消失(例えば、装置の近くから離れる)によってさえ感知されてもよい。シリアルコンテンツの配信を一時停止するというユーザの指示は、明白なもの(すなわち、ユーザとマシンとの両方に知られている情報伝達)であってもよく、又は、ユーザの状態(例えば、退屈している、興奮している、動揺している)のマシンベースの評価に基づいていてもよい。
これらのカテゴリの各々内でさらに詳しく説明すると、一時停止指示は、例えば、現在時刻、前回の一時停止からの経過時間、シリアルコンテンツ内のマーカ、シリアルコンテンツ内のフレーム番号、シリアルコンテンツの配信開始からの時間、シリアルコンテンツ内で識別された画像、シリアルコンテンツ内の識別された画像の組み合わせ、シリアルコンテンツ内の識別された音声、シリアルコンテンツ内の識別された音声の組み合わせ、シリアルコンテンツ内の識別された音声と識別された画像との組み合わせ、1以上のセンサによって検出された画像内の識別されたオブジェクト、1以上のセンサによって検出された複数の画像内のオブジェクトの識別された動き、1以上のセンサによって検出される実際又は仮想のボタンの押下、及び、1以上のセンサによって検出された識別された音声のうちの1以上の信号から決定されてもよい。
追加の例示的な実施形態では、そのような信号が1以上の一時停止基準を満たすかどうかを評価する1つの方法としてコンテンツデータから信号を生成するステップは、潜在的な一時停止時間(例えば、コンテンツ内の場所/時間)及び/又はシリアルコンテンツ内のコンテキストを予めラベル付けするプロセスを利用してもよい。このような潜在的な一時停止フレーム/時間を示すために幅広いオプションが利用可能である。最も単純なものは、視聴覚提示内で各一時停止がいつ発生し得るかを予め計画すること(すなわち、コンテンツの開発者又は供給者によって)と、シリアルコンテンツ内にデジタル表示を直接埋め込むことと、から構成される。コンテンツデータは、シリアルコンテンツの各セグメントのコンテキスト及び/又はコンテンツを示すために予めラベル付けされてもよい。その後、そのようなラベル付けが、予め確立された基準と比較されて(例えば、特定のオブジェクト、コンテキスト及び/又は音の識別を、確立された個人コンテキスト及び/又は嗜好と比較する)、いつCVAスニペットを一時停止及び中断するかを決定してもよい。
実用レベルでは、このようなラベル付けを保存してラベル付けをシリアルコンテンツにリンクさせる数多くの方法が利用可能である。例えば、単純な情報伝達(例えば、一時停止場所のバイナリ表示)が、未使用のシリアルコンテンツ(例えば、画像の外縁を表すピクセル)に埋め込まれてもよく、又は、認識することができない効果を生み出す場所(例えば、1以上の画像ピクセル又は音声信号の下位ビット)に埋め込まれてもよい。より詳細なラベル付け(例えば、コンテキスト及びオブジェクト)は、フレームへのいわゆるポインタ及び/又はコンテンツデータ構造内の他の参照を維持する関連データセットを使用して実装されてもよい。
より高度なラベル付けは、視聴覚コンテンツセグメントを(マシンが理解可能な形式で)記述する関連データセット内で識別されたオブジェクト及び/又は音声をたどることによって実行されてもよい。視聴覚データをラベル付けするプロセスは、当技術分野ではよく知られており、かつ、サービス料金ベースで商業的に入手可能である。このようなサービスは、一般に高度に自動化されており、人間の監視及び介入によってコンテンツ内のいわゆる「グラウンドトゥルース」が保証される。このようなコンテンツのラベル付けを支援するために現在利用可能な多数(すなわち、数十)のツールの例としては、VoTT(Visual object Tagging Tool)、MATLAB、CVAT(Computer Vision Annotation Tool)、LabelMe、Doccano、Screenity、ImageJなどが含まれる。
シリアルコンテンツコンテキスト内のコンテキストは、自然言語処理及び/又は画像認識処理によってリアルタイムで決定されてもよい。音声及びビデオコンテンツを分類するために利用可能なさまざまなツールは上記の背景技術のセクションで詳しく説明される。個々のセグメント内のコンテンツを含むコンテンツは、例えば、意図(例えば、教育的な、ユーモアのある)、配信のスタイル(例えば、現実的な対見せかけ)、配信の方法(音声のみ、白黒ビデオ)、ジャンル(ドラマ、SF)などに基づいて多くの分類に分類されてもよい。コンテンツは、識別されたオブジェクト、場所、前景及び背景の分類、個人、単語、言語、民族的背景、音声パターン、音量、発話、アクション、音楽、効果音、場面変化の速度、看板などに従って分類されてもよい。コンテンツは、驚き、楽しさ、恐怖、ホラー、怒り、激怒、嫌悪感、イライラ、軽蔑、悲しみ、喜び、混乱、興味、退屈、平静、不安、期待、羨望、性欲、愛情、友情などを含む個人の予想される認知的及び感情的反応に従ってさらに分類されてもよい。
同様に、配信されたコンテンツとのインタラクション中に個人によって検出された反応は、「個人コンテキスト」を識別するために使用されてもよい。上述したように、そのような分類された反応が、ユーザ反応の1以上の既定の分類(例えば、嗜好)と実質的に比較される場合、コンテンツの配信は、一時停止されてCVAスニペットを散在されてもよい。ユーザによる分類及び/又は識別された反応には、驚き、楽しさ、恐怖、ホラー、怒り、激怒、嫌悪感、イライラ、軽蔑、悲しみ、喜び、混乱、興味、退屈、平静、不安、期待、羨望、性欲、愛情、友情などが含まれてもよい。個人によるそのような感情的及び認知的反応を分類するシステム及び方法は、2021年3月12日に出願された同時係属中の米国特許出願第17/200,722号にさらに詳細に記載されている。
上述したさまざまな分類又は識別されたコンテキストのいずれか又はすべては、CVA応答を生成するための基礎として使用されてもよい。言い換えると、以下は個別に又は集合してCVAインタラクションスニペットの基礎となり得る:1)グループメンバに表示されたシリアルコンテンツのコンテキスト;2)まだ提示されていないコンテンツのその後(すなわち、一時停止後)のコンテキスト;3)提示されたコンテンツ又はその後のコンテンツに対する、予想される又は典型的な人間の反応(年齢、性別、社会規範、伝統などの要素を考慮する);4)グループに関わる1人以上の個人の嗜好、視点、興味及びその他のコンテキスト要素;5)グループに関する1人以上の個人によるコンテンツ配信に対する分類された反応;及び、6)さまざまな分類又は識別されたコンテキスト間の関連性(例えば、一致、不一致、最初の出現)。
CVAは、例えば、予想される反応を確認し、特定の感情の存在に疑問を抱き、慰めの方法で行動し、感情的又は身体的反応と同様の方法で反応し(又は、バランスをとり)、コンテンツの認知的側面について説明し、グループ内の他人に、識別されたコンテンツ及び/又は個人の反応の1以上の側面についてコメントすること求め、コンテンツ又はその制作(例えば、俳優、監督)に関連する背景資料(例えば、Webベースの検索から)を提供し、識別又は予想された感情に関連するストーリーテリングを提供し、コンテンツに関連する追加(例えば、技術)情報を提供し、未来のコンテンツで何が明らかになるかについて推測するよう求め、グループのほとんどのメンバー(おそらく例外を示す)が1以上の共通の関心を有していることを指摘し、以前に提起されていないトピック又はコンテキストを示すなどしてもよい。さらに、CVAは、インタラクティブなゲーム、オンライン又はオフラインのベンチャー、教育提示、コミュニケーション体験、又は、ユーザ間又はCVAと1人以上のユーザとの間でその他の形式のコンテキストの関連した及び/又は意味のあるソフトウェアアプリケーション及び/又はアクティビティを開始してもよい。
コンテキストアプローチが使用されて、散在されたCVAベースのスニペットをいつ終了するかを決定してもよい。言い換えると、シリアルコンテンツの提示への復帰は、例えば、1人以上のグループメンバからの信号(例えば、仮想押しボタン)、グループメンバの全員又は部分集合の反応、差し挟みの経過時間、コンテキストベースのCVAスクリプトの完了などによって示されてもよい。シリアルコンテンツの提示への復帰が適切又は適時であるという別のシグナルには、グループ参加者からのさらなるインタラクション又は入力(すなわち、装置センサから決定される)がない場合が含まれる。
さらなる例示的な実施形態では、CVAを実行するために必要なプログラミングのレベルは、予め確立された「if−then」条件及び予めスクリプト化されたインタラクションシーケンスの使用から、高度な推論マシンによって生成された出力に至るまで、展開中に幅広く変化してもよい。基本レベルでは、CVAは、予め確立されたCVA応答及び/又はアクションを介して、分類された反応に反応してもよい。現在時刻、ユーザの嗜好及び/又は分類されたコンテキストなどの既知のエンティティが、そのようなスクリプト化されたシーケンスに挿入されてもよい。スクリプトは、識別された分類に関連するグループメンバを対象とする断定的なステートメントの形式をとってもよく(例えば、「微笑んだね!」)又は質問(例えば、「怖いですか?」)の形態をとってもよい。これは、彼らの反応について他人におそらくエンゲージするようにグループの個々のメンバーを「丁寧に説得する」だけでなく、CVAアクションにより、特に、彼らが、シリアルコンテンツの共有消費中に遠隔地の個人を直接見たり聞いたりすることができない場合、グループ内の他人(例えば、両親、友人、祖父母、保護者)がそのような反応に気づくことを可能にしてもよい。このような個別のコンテキストをグループに単に指摘することによってエンゲージメントを向上させてもよい。
CVAアクションのさらなる例示的な実施形態として、CVAは、分類されたコンテンツコンテキスト(及び/又は、任意の他の既知のエンティティ)のいずれかを指摘又は記述してもよい。同様に、これは、スクリプト化されたステートメント(「猫がいる!」)又は質問(「車を見た?」)の形式で表現されてもよい。さまざまな分類されたコンテキスト間の空間的及び/又は時間的関係がそのような対話に組み込まれてもよい(例えば、「車の横にいる猫を見た?」)。特定のオブジェクト若しくはオブジェクト又は音声のクラスを分類及び/又は識別するための画像及び/又は音声認識のアプリケーションは、個人及び/又はグループのエンゲージメントをさらに向上させ得る。例えば、シリアルコンテンツ内で識別された自動車の特定の色及び/又はメーカを識別するCVAによるステートメントが、自動車愛好家他の間でエンゲージメントをトリガしてもよい。同様に、映画内の特定の女優又は俳優の身元について尋ねる又は確認すると、映画鑑賞者間の対話を促進し得る、又は、鳥の鳴き声の正体によってバードウォッチャ間の交流を促進し得る。
さらなる例示的な実施形態では、CVAは、エンゲージメントの認知的側面を向上させるために、1人以上のユーザによって提供される非公開情報(例えば、グループ内のメンバーの名前及び誕生日)及び/又はパブリックドメイン(すなわち、Webベースの)検索ストラテジの両方を使用してもよい。一例として、シリアルコンテンツ内の恐竜のコンテキストが特定されると、Webベースの検索がトリガされ、恐竜が約2億年前に存在した爬虫類であることが判明してもよい。このようなコンテンツ及び/又は認知の向上をサポートするためにさまざまな検索ツール(例えば、Google)及び情報ソース(例えば、Wikipedia)が利用可能である。そのようなコンテキスト検索及び/又は関連付けの結果は、グループ装置上に表示又は提示されてもよく、及び/又は、CVAによって明確に表現されてもよい。
特に図4及び図6に関連する以下の説明の中で示されるように、個人コンテキスト(例えば、嗜好、願望、好き、嫌い)が、コンテンツ及び/又はその後のコンテキストと比較されて、CVA応答又はアクションの基礎を形成してもよい。個人コンテキストは、すべての既知のコンテキスト間の関係を決定するプロセスの一部として、他の個人コンテキスト及び/又はコンテンツ(すなわち、過去及び/又は未来の)コンテキストと比較されてもよい。一例として、コンテンツ内に犬が出現すると、コンテンツの一時停止がトリガされ、結果として(すなわち、個人コンテキストの検索時に)CVAで「ジェーンとジョンとはふたりとも犬が好きである」というコミュニケーションが行われてもよい。コンテンツを共有して消費する際に、コンテキスト内で共通の興味(嗜好、又は嫌いなもの)を指摘することは、グループメンバの間で特に魅力的であり得る。
より高度なプログラミング手法を使用すると、CVA生成に関連する1以上のプロセッサが、(任意選択的に)人工知能でインスタンス化されてもよい。人工知能には、1人以上のユーザに馴染みのある(又はよく理解している)人格が含まれてもよい。単一の人工知能パーソナリティ(AIP)がグループ内のすべての参加者間で共有されてもよく、AIPパーソナリティが異なってもよく、又は、グループ内の個々のユーザの受け入れを高めるためにAIP特性が適応されてもよい。後者の例として、外観(例えば、漫画的、現実的)及び/又は声(例えば、性別、方言)が個々のユーザの嗜好に基づいて調整されてもよい。CVAサイズは、特定の表示装置の画面に都合よく合うように調整されてもよい。このような共有AIPの態様は、2019年4月19日に出願された米国特許第10,762,414号、2020年6月15日に出願された米国特許第10,915,814号及び2020年10月23日に出願された米国特許第10,963,816号でより詳しく説明されている。
シリアルコンテンツの配信を一時停止してCVAを散在させるためのさまざまなトリガを例示する1つのシナリオとして、幼児と1人以上の離れた祖父母とが、恐竜が登場する漫画アニメーションの共有視聴体験中にインタラクションすることを考える。シリアルコンテンツの提示を開始してからの短い時間(すなわち、リアルタイムクロックから得られる)に基づいて、CVAは中断して、各参加者に自己紹介をさせ、かつ、場合によっては自分の気持ちを述べさせることによって、誰が視聴エクスペリエンスを共有しているのかを全員が把握することを確実にする。全員の意見を聞いてアニメーションの配信を再開すると、マシンベースの分類は、参加者全員が全体的にリラックスしていて注意力があるように見えることを示している。ただし、恐竜が突然立ち上がって大声で吠えると、幼児は悲鳴を上げる。この感知された(すなわち、音声)反応コンテキストにより、コンテンツ配信が一時停止され、「大丈夫ですか?」と尋ねるCVAが散在される(すなわち、幼児が対象であるが、全員が見たり聞いたりする)。少女は、(CVA及び祖父母に)怖がっている、及び/又は、いじめられているという感情を明らかにする。
シナリオのこの時点で、祖父母は幼児に、恐竜は通常非常に大きく、そのような轟音を立てることができると説明してもよい。CVAは、さまざまな恐竜の通常のサイズ及び外観に関する検索ベースの事実を追加してもよい。それ以上の交流が検出されない場合、シリアルコンテンツの配信は、アニメーション玩具の「スーパーヒーロー」キャラクタの陽気な導入を含むシーンまで継続される。アニメーションのコンテキスト又は1人以上の参加者が感知した笑いの兆候により、散在されたCVAが「何がそんなに面白いの?」と尋ねることをトリガする。すべての参加者が、面白いように見える側面を説明することを許容した後、アニメーションのサウンドトラックがダンスミュージックに切り替わる。幼児の既定の「好き」の1つがダンスすることであることを知っているので、CVAは、シリアルコンテンツの配信を中断して「踊ろう!」と提案する。
幼児によるダンス活動を検出すると、CVAを駆動するインテントエンジンは、一時的に、ダンス活動の機会、及び、祖父母が幼児のダンス能力を賞賛する機会を提供するダンスビデオ(すなわち、別個のソフトウェアアプリケーション)にコンテンツを切り替えてもよい。その後、1人以上の祖父母が、元の恐竜アニメーションへの復帰を(例えば、仮想押しボタンを介して)情報伝達してもよい。幼児の予め特定された年齢がちょうど数え方を学ぶレベルにあることを知っている場合、CVAによる差し挟みは「スーパーヒーローは何人いますか?」と尋ねてもよい。同様の散在されたCVAアクション及び活動は無期限に継続してもよい;ただし、この時点で、幼児の予め特定された就寝時間に近づいている可能性があるので、CVAはセッションを終了するよう提案する。
図面を参照すると、図1Aは、3人の個人10a、10b、10cがシリアルコンテンツ(説明の目的で、従来の外観のフィルムストリップ14内の連続画像として示されている)を同時に視聴する別のシナリオを示している。この例では、シリアルコンテンツ14は、画面上を移動するユニコーンを含む漫画アニメーションを含む。コンテンツは、コンテンツジェネレータ及び/又はサーバとして機能する1以上の(ローカル又はリモート)プロセッサ13a、13b、13cを介して生成されてもよく、かつ、1以上の形式の電気通信15を介して配信されてもよい。コンテンツは、3人の個人10a、10b、10cによって、彼らのそれぞれのインタラクション機器11a、11b、11c上で視聴及び/又は聴取されてもよい。コンテンツ14は、すべての機器にほぼ同時に配信され、(実質的に同時に)ユニコーンベースのシーン12a、12bを、デスク上に置かれた携帯電話11a及びタブレット機器上で見ることができる一方で、第2タブレット機器上では見ることはできない(ただし、依然として存在する)。
図1Bは、図1Aに示すシナリオの続きであり、コンテンツのコンテキスト(すなわち、ユニコーンの表示)の結果として、すべての機器11a、11b、11cへのシリアルコンテンツ15の配信が、一時停止され、かつ、コンテンツコンテキストに反応する生成された仮想エージェント16を含む視聴覚シーンによって置換される。CVA18Aを表示することに加えて、CVAは、例えば、「ユニコーン」という単語を発音して、今見たものを識別し、かつ、特に少女10bに対して単語の発音を強化することを助けてもよい。CVA18aは、ユニコーンに関する簡単なストーリを差し挟んでもよい。追加として、コンテキスト差し挟みのさらなる例として、単語「ユニコーン」18bが表示装置11a、11b、11c上に綴られる。
差し挟みは、さまざまなインタラクション機器11a、11b、11cにおいて多少異なってもよい。これは、機器の制限(例えば、モバイル機器11aの比較的小さい表示画面)及び/又は異なるユーザ10a、10b、10cによるエンゲージメントを維持するためのストラテジの結果として生じてもよい。後者の一例として、電気通信リンク17が、ビデオチャット用のパイプラインとして少女10bと同時視聴者10cのうちの1人との間に確立され、特に少女10bの教育及び/又は娯楽体験をさらに強化する。図1Bに示すシーン内では、少女10bの表示装置11b上で大人のビデオチャット画像18cを見ることができるが、同時視聴者10cのインタラクション機器11c上のビデオチャット中の少女の対応画像を図1Bで見ることはできない(ただし、それにも関わらず存在する)。
図2は、視聴覚コンテンツ及び/又はインタラクション反応のコンテキストに基づいてCVAスニペットが散在されるシリアルコンテンツを配信する例示的なタイムラインを示している。シリアルコンテンツは、従来の外観のフィルムストリップ内の一連のフレーム20a、20b、20c、20d、20e、20f、20gとして図示されている。シリアルコンテンツ内には、CVA24a、24bを含む視聴覚セグメント又はスニペット23a、23bが散在されている。図2はまた、コンテキストがいつ変更されようとしているか(すなわち、次の又は今後のフレーム中)を示すためにシリアルコンテンツ22a、22b、22gにラベル付けするデジタル信号25も示している。
図2のタイムラインを順に辿ると、第2フレーム20b中のデジタル信号26aは、シリアルコンテンツが犬20a、20bの表示からユニコーン22bの表示に切り替わろうとしていることを示している。結果として、CVA24aを含む視聴覚セグメント23aがインタラクションコンテンツに挿入21aされる。このスニペット23aの提示が完了21bすると21b、配信は、ユニコーンベースのコンテンツ20c、20dを含むシリアルコンテンツの次のセグメント22bに戻る。
この次の視聴覚セグメント22b内では、ユニコーン20dから猫20eへのコンテンツの保留中の変更の第2デジタル表示26bが利用可能である。このシナリオでは、例えば、以前のCVAスニペット23aの後に(楽しく見るには)早すぎるので、新しいCVAセグメントを導入するためにこの信号26bは使用されない。
ただし、シリアルコンテンツ22bは、お気に入りの猫20eの表示に変化する。このお気に入りのオブジェクト(例えば、ユーザの個人コンテキスト内で以前に特定されたもの)の観察された存在は、図4に示すようにシリアルコンテンツのコンテキストの分析内で認識されてもよく、及び/又は、図7に示すようにコンテンツ視聴者の反応の分類によって認識されてもよい。これらの条件のいずれか又は両方により、CVA24bを包含するスニペット23bへの移行21cが発生する。スニペット23bの提示が完了すると、配信は、21dに移行して戻り、猫20f、20gを示すさらなるシーンを有するシリアルコンテンツの最終セグメント22cを提供する。
図3は、CVAを散在させる時間の指示(すなわち、1以上の信号)が直接感知された場合34a、シリアルコンテンツ31aの配信中に、CVAを含むスニペットを散在させるステップを概説するフローチャートを示している。例として、ユーザ30(又は任意の他の人間)は、例えば、現実又は仮想の押しボタン33aを使用して、一時停止したいという希望を示してもよい。代替又は追加として、コンテキスト(すなわち、ラベル付きコンテンツ)及び/又は一時停止信号の表示は、シリアルコンテンツに関連付けられたデータセット内に符号化され、かつ、その後感知されてもよい33c。例えば、シリアルコンテンツには、ユニコーン32aから猫32bへのシーンの移行を示すために予めラベル付けされていてもよい。一時停止のための指示は、例えば、以前の一時停止及びスニペット差し挟みからの経過時間を含む時間33bにも依存してもよい。
一時停止条件が存在する場合34b、シリアルコンテンツ31aの配信は、一時停止され34c、かつ、CVA31bを含む差し挟みによって置換される。差し挟まれたスニペットのコンテンツは、部分的に、一時停止と同時に発生するシリアルコンテンツの識別(すなわち、分類)に基づいて生成されてもよい。処理には、オブジェクト35aの境界領域の識別及びその後のそれらのオブジェクトの識別35b、並びに/又は、自動音声認識36a並びにコンテンツ及び/又は意図(すなわち、コンテキスト)を識別し得るその後の自然言語処理36bを含むシリアルコンテンツの音声成分の処理が含まれてもよい。ビデオ35a、35b及び/又は音声36a、36bの処理の結果は、その後、自然言語生成37a及びアニメーション処理37bへの入力として適用されて、コンテンツデータストリーム31bに差し挟まれる37cCVAを形成してもよい。
同様に、図4は、CVAを散在させる時間の表示がシリアルコンテンツのコンテキストから決定される場合に、シリアルコンテンツの配信41a内にCVAを散在させるステップを示すフローチャートを示している。この場合、コンテキストは、オブジェクト45aの境界エリアの識別及びその後のそれらのオブジェクトの識別45bを含むシリアルコンテンツのビデオ成分の処理、並びに/又は、自動音声認識46a及びその後の自然言語処理46bを含むコンテンツの音声成分の処理に基づいて決定される。ビデオ及び/又は音声の結果は、コンテキスト分類器43への入力として適用されてもよい。
その後、シリアルコンテンツ41aの分類されたコンテキスト43は、既定のコンテキスト分類44aのデータセットと比較されて、1以上のコンテキストの一致44bがあるかどうかを確認してもよい。例えば、このデータセット44a内の1つのコンテキストには、図4に示すように、猫42のシリアルコンテンツ41a内の外観(おそらく特定の個人40にとって特に興味深いもの)が含まれてもよい。一致が存在しない場合、その後、シリアルコンテンツ41aの配信は中断されることなく継続される。一致が存在する場合、その後、シリアルコンテンツ41aの配信は44cで一時停止され、CVA47cが生成されてコンテンツデータストリーム41b内に散在される。分類43中に使用される同一又は類似のビデオ45a、45b及び/又は音声46a、46bデータは、CVA47cの生成中に使用される自然言語プロセッサ47a及びアニメーションジェネレータ47bに適用されてもよい。
図5は、1以上のコンテキストユーザ反応(すなわち、少女53a及び/又は近くの大人55aによる)が使用されて、CVAを含むコンテンツを散在させることによってシリアルコンテンツ50aの配信をいつ中断するかを決定するシナリオからのシーンを示している。このシナリオでは、シリアルコンテンツ50aは、少女53aに向けられたインタラクティブ機器52a及び1以上の他の機器(図示せず)にブロードキャストされる猫51aの画像(及び音声)を含む。少女53aは、猫51bの表示に対して笑顔で両手54aを上げて反応する。さらに、近くにいる大人55aも、笑顔で反応し、かつ、猫54bの名前(すなわち、「ふわふわ」)を呼ぶ。これらの感知された反応のいずれか又は両方が検出されて、シリアルコンテンツの配信を一時停止するための1以上の信号として使用されてもよい。
一時停止すると、コンテンツは、CVA50bを生成し、かつ、少女52bの表示装置(及び、他のユーザの1以上の装置、図示せず)にCVA57を表示することを含むプロセスに移行する(右向きの矢印56a、56bで示される)。図1Bに示すシナリオと同様に、移行されたコンテンツには、少女53bと別のユーザ55bとによるビデオチャット機能が含まれる。別のコンテキスト上の挿入(インタラクションを促進するように設計される)は、少女53bのディスプレイ52bに、(修辞的な)質問の表示「笑った?」58の表示である。この場合、CVAによるアクションのコンテキストベースには、配信されたシリアルコンテンツのコンテキストだけでなく、1人以上のユーザ53aによって検出及び分類された反応も含まれる。
図6は、ユーザ60の1以上の反応に基づいて、コンテンツを一時停止し、その後にコンテンツを散在させるステップを概説するフローチャートである。一例として、ユーザ60は、シリアルコンテンツ61a内に示される猫62の出現に応答してもよい。個人60による反応は、1以上のセンサ64bによって監視される。ユーザ60の動きはカメラ63bによって監視され、かつ、音声(又は他の音)はマイクロフォン63aによって検出されてもよい。ユーザは、画面タップ、キーボード、マウス、ジョイスティック、リモコンなどを含む他のさまざまなプロセッサ入力(図示せず)を使用して反応してもよい。
ユーザ反応は、分類され64c、かつ、既定のユーザ反応の1以上の分類64aと比較されてもよい(64d)。一致が存在しない場合、その後、シリアルコンテンツ61aの配信は途切れることなく継続する。一致が存在する場合、その後、シリアルコンテンツ61aの配信は一時停止64eされ、CVA67cが生成されてコンテンツデータストリーム61b内に散在される。CVAは、図3及び図4に概説したのと同じ全般的なステップを使用して生成されてもよく、ビデオデータが、境界領域65aの識別とそれに続く画像認識65bとによって処理され、音声データが自動音声認識66aとそれに続く自然言語処理66bとによって処理される。その後、自然言語生成67a及び仮想エージェントアニメーション67b中にビデオ及び音声分析が使用されてCVAを形成してもよい。さらに、自然言語生成67a及び仮想エージェントアニメーション67bのプロセスは、CVAアクション及び/又は他の散在コンテンツを定式化する場合に、1人以上のユーザ68の(分類を介した)既知の反応及び任意の関連付け(例えば、共通又は異なる反応)を利用してもよい。
図7は、「未来の」シリアルコンテンツの1以上のコンテキストに基づいて強化されたインタラクションを開始し得るCVA72cを散在させるステップを概説するフローチャートである。未来を知るCVAのこの見かけの能力は、シリアルコンテンツ71dを1人以上のユーザ70に提示する前に、そのコンテンツのコンテキストを分類することによって実装されてもよい。これにより、例えば、特に興味のあり得る今後のコンテンツについてユーザ70が注意喚起され得るユーザ体験が可能になる。
図7において、インタラクションを散在させるためにシリアルコンテンツを一時停止する潜在的なトリガは、図3(すなわち、一時停止信号)、図4(すなわち、提示されたシリアルコンテンツ)及び/又は図6(すなわち、ユーザ反応)に示す3つの概略的な方法のいずれかを使用して生じてもよい。図7において、これらのトリガソースを実行するための経路は、全体的に破線(例えば、73d、78a、78c)を使用して示されており、これらの経路を、未来のコンテンツに関する明らかな知識を有するCVA(例えば、72c)の生成を含み得るスニペット(例えば、71c)を実行するために使用される共有データ処理経路と区別しようと試みる。
シリアルコンテンツ71aの提示を一時停止し得るトリガには、実際の又は仮想の押しボタン73a(例えば、任意のユーザによってトリガされる)、時限イベント73b、及び/又は、コンテンツに埋め込まれ得る及び/又はコンテンツ関連(例えば、ラベル付けされた)データセットから抽出され得る信号73cが含まれる。代替又は追加として、提示されたコンテンツ71aのコンテキストは、一時停止信号(例えば、お気に入りの犬72aの認識から生じる一時停止)の潜在的なソースとしての包含78cのために、画像75a、75b及び/又は音声76a、76bの分類78bについて処理78aされてもよい。さらなる実施形態では、ユーザ反応73が、分類され、かつ、既定の反応分類74bと比較されて、シリアルコンテンツの一時停止と1以上のスニペット71b、71cの散在とをトリガしてもよい。
一時停止条件の存在は、いま説明したさまざまな一時停止ソース74aから取得され、かつ、予め確立された一時停止条件74b(例えば、1以上のユーザの好み又は嗜好)と比較されてもよい。一時停止条件が満たされない場合74c、シリアルコンテンツ71aの提示は単純に継続される74d。一時停止条件が満たされると、シリアルコンテンツの提示(例えば、表示及び/又は音声ブロードキャスト)が一時停止74eされる。この時点で、シリアルコンテンツ71dのコンテキストの処理が(密かに)継続してもよい。この処理には、ビデオデータの境界領域識別75a及び画像認識75b、並びに/又は、音声データの自動音声認識76a及び自然言語処理76bが含まれてもよい。結果は、自然言語生成ルーチン77a及びアニメーション77bルーチンへの入力として使用されて、コンテキスト(未来を見据えた)仮想エージェントを生成してもよい。処理は、通常のデータストリームのブロードキャストと同等の時間経過にわたって生じてもよく、若しくは、伝送及び/又は計算リソースがそのような分析を処理するのに十分である場合には、加速された時間経過にわたって生じてもよい。
この(一般的に短い)処理時間中、未来のコンテンツに関する知識を有するCVAが利用可能になることはなく、又は、ユーザ70に表示されることはない。空白の画面の表示及び/又は音声の欠如の代替として、「未来の」コンテキストの知識を有するCVA72cを含み得る提示されたシリアルコンテンツ71aからターゲットコンテンツ71cへの移行又は連続として、(任意選択的に、破線の輪郭長方形74fによって示される)コンテンツが挿入されてもよい。この任意選択的な移行コンテンツ71bは、例えば、未来のコンテンツをまだ認識していない仮想エージェント72bによる一般的な紹介スニペット及び/又はインタラクションを含んでもよい。
未来の知識を備えたCVA72cが利用可能77cになると、このCVA72cを含む結果のスニペット71cが、ユーザ70(及び、図示されていない他のユーザ)による視聴及び/又は聴取のためにデータストリームに挿入されてもよい。このスニペット71cが完了すると、一時停止されたシリアルデータストリーム71dの提示が再開されてもよい。これらのデータは、例えば、明らかに未来を見ることができるCVA72cによる実行内のコンテキストを明らかにしてもよい(例えば、次の視聴覚シーケンス72dで識別されるお気に入りの猫をユーザに注意喚起する)。
図8は、ビデオチャット82a、CVA82d及び今後のシリアルコンテンツ(すなわち、マシン分類されているがまだ表示されていない)に関するヒント82cを含む例示的なインタラクションコンポーネントをタブレット装置80上に示している。この例示的なインタラクション内では、画面80は、同時に機能する4つの領域81a、81b、81c、81dに分割される。右上領域81bは、「ドアの後ろに何がありますか?」という質問83aをする(例えば、今後のシリアルコンテンツ内のオブジェクト又はアクションを参照する)ことによってユーザを引き込むように設計されている。左下領域81c内には、まだ見られていないものに関するヒント83bとして、足跡82cのセットが提供される。右下領域81dは、「彼女はあなたのお気に入りです!」という音声交換を介してさらなるヒントを追加するCVA82dを示している。同時に、左上領域81aは、さらなるユーザ奨励を提供する遠隔ユーザ82aとの同時ビデオチャットのためのエリアを示している。
エンゲージメントを強化するように設計されたこのシナリオでは、ドア82bを開くと(例えば、ドアのハンドルの領域でタブレット画面をタップすることによって)、猫の画像(図示せず)が現れる。図7のシナリオ内で概説されているように、ネコ科の分類は、コンテンツの配信を一時停止するための1つの条件(すなわち、個人コンテキスト)として予め確立されてもよい。シリアルコンテンツ内に猫が今後登場すると、コンテンツ配信が一時停止され、移行素材及び/又は拡張素材が差し挟まれる。
CVA82dによって「彼女はあなたのお気に入りです!」84と明確に表現することは、装置ユーザによって事前に設定された任意の数の「条件付きアクション」の1つとして含まれてもよい。このような条件付きアクション(すなわち、1以上の予め設定された条件が満たされた場合に未来のある時点で仮想エージェントによって実行されるアクション)を設定するさらなる態様については、2020年10月27日に出願された米国特許第10,962,816号に詳細に説明されている。図8で説明した条件付きアクションの例では、シリアルコンテンツ内の猫の分類は、「条件」であり、かつ、仮想エージェントによって明確に表現され、猫に対する特定の感情(すなわち、「彼女はあなたのお気に入りです!」)が「アクション」である。
このような条件付きアクションを設定すると、個人(例えば、友人、両親、同僚)が仮想エージェントの見かけの知識及び/又は「現実感」を大幅に高めることを可能にし得る。任意の数の条件付きアクション(すなわち、遭遇する可能性のある状況を予測する)を予め確立することにより、個人は自身の影響力及び/又は活動を効果的に「タイムシフト」してもよい(すなわち、状況に遭遇した際に仮想エージェントによって未来のある時点で実行されることになる)。
例示的な実施形態の前述の開示は、例示及び説明を目的として提示されたものである。網羅的であること、又は、開示された詳細な形式に本発明を限定することを意図したものではない。本明細書に記載の実施形態の多くの変形及び修正は、上記の開示を考慮すれば当業者には明らかである。特定の実施形態で説明したさまざまな構成要素及び特徴は、実施形態の使用目的に応じて、他の実施形態に追加、削除及び/又は置換可能であることが理解される。
さらに、代表的な実施形態を説明する際、本明細書は、方法及び/又はプロセスを特定の一連のステップとして提示している場合がある。ただし、方法又はプロセスが本明細書に記載の特定のステップの順序に依存しない限り、方法又はプロセスは、記載された特定の一連のステップに限定されるべきではない。当業者であれば理解するように、他の一連のステップも可能であり得る。したがって、本明細書に記載されたステップの特定の順序は、特許請求の範囲を限定するものとして解釈されるべきではない。
本発明は、さまざまな修正及び代替形態を受け入れることが可能であるが、その具体例が、図面に示されており、かつ、本明細書で詳細に説明されている。本発明は、開示された特定の形態又は方法に限定されるものではなく、逆に、本発明は、添付の特許請求の範囲に含まれるすべての修正、等価物及び代替物をカバーするものであることを理解されたい。

Claims (48)

  1. 人間のエンゲージメントを促進する方法であって、
    複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記プロセッサに動作可能に結合されたセンサと、を備える、提供するステップと、
    すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信するステップと、
    前記電子機器の1以上のプロセッサ及び前記電子機器の1以上のセンサのうちの1以上によって、一時停止指示を検出するステップと、
    前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止するステップと、
    前記1以上のプロセッサによって、前記シリアルコンテンツの配信の一時停止と同時に発生する1以上のシリアルコンテンツコンテキストを決定するステップと、
    前記1以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記1以上のシリアルコンテンツコンテキストに基づいて1人以上のユーザとのインタラクションを開始するステップと、を含む方法。
  2. 人間のエンゲージメントを促進する方法であって、
    複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、を備える、提供するステップと、
    すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信するステップと、
    1以上の前記プロセッサによって、1以上のシリアルコンテンツコンテキストを決定するステップと、
    前記1以上のプロセッサによって、前記1以上のシリアルコンテンツコンテキストが1以上の既定のコンテキストと一致することを決定するステップと、
    前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止するステップと、
    前記1以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記1以上のシリアルコンテンツコンテキストに基づいて1人以上のユーザとのインタラクションを開始するステップと、を含む方法。
  3. 人間のエンゲージメントを促進する方法であって、
    複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記プロセッサに動作可能に結合されたセンサと、を備える、提供するステップと、
    すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信するステップと、
    1人以上のユーザとのインタラクションから、1以上のセンサからのインタラクションデータを取得するステップと、
    1以上のプロセッサを使用して、前記インタラクションデータから、前記1人以上のユーザによる1以上のコンテンツ反応を分類するステップと、
    1以上の前記プロセッサによって、前記1以上のコンテンツ反応が1以上の既定の反応に一致することを決定するステップと、
    前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止するステップと、
    前記1以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記1以上のコンテンツ反応に基づいて前記1人以上のユーザとのインタラクションを開始するステップと、を含む方法。
  4. 人間のエンゲージメントを促進する方法であって、
    複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記電子機器のユーザの反応を監視するために前記プロセッサに動作可能に結合されたセンサと、を備える、提供するステップと、
    すべての前記電子機器の出力装置上で実質的に同時に、すべての前記電子機器のユーザがグループとして見るシリアルコンテンツを配信するステップと、
    前記電子機器の1以上のプロセッサ及び前記電子機器の1以上のセンサのうちの1以上によって、前記シリアルコンテンツに対する前記ユーザの1人以上の感情的又は表情的な反応に関連する一時停止指示を検出するステップと、
    すべての前記出力装置上で実質的に同時に、前記一時停止指示に基づいて前記シリアルコンテンツの配信を一時停止するステップと、
    前記1以上のプロセッサによって、前記シリアルコンテンツの配信の一時停止と同時に発生する前記シリアルコンテンツに関連する1以上のシリアルコンテンツコンテキストを決定するステップと、
    前記1以上のプロセッサを使用して、すべての前記出力装置上で実質的に同時に提示される1以上の漫画のキャラクタ、表示動物、表示キャラクタ及び音声のうちの1以上として仮想エージェントを生成するステップであって、前記仮想エージェントは、前記1以上のシリアルコンテンツコンテキストに基づいて前記仮想エージェントと前記ユーザの1人以上との間の会話を含むインタラクションを開始する、生成するステップと、を含む方法。
  5. 人間のエンゲージメントを促進する方法であって、
    複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、を備える、提供するステップと、
    すべての前記電子機器の出力装置上で実質的に同時に、すべての前記電子機器のユーザがグループとして見るためのシリアルコンテンツを配信するステップと、
    1以上の前記プロセッサによって、1以上のシリアルコンテンツコンテキストを決定するステップであって、前記1以上のシリアルコンテンツコンテキストは、1人以上の人間の感情又は反応を生成する前記シリアルコンテンツ内のシリアルコンテンツを含む、決定するステップと、
    前記1以上のプロセッサによって、前記1以上のシリアルコンテンツコンテキストが1以上の既定のコンテキストと一致することを決定するステップと、
    すべての前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止するステップと、
    前記1以上のプロセッサを使用して、すべての前記出力装置上で実質的に同時に提示される1以上の漫画キャラクタ、表示動物、表示キャラクタ及び音声のうちの1以上として仮想エージェントを生成するステップであって、前記仮想エージェントは、前記1以上のシリアルコンテンツコンテキストに基づいて前記仮想エージェントと前記ユーザの1人以上との間の会話を含むインタラクションを開始する、生成するステップと、を含む方法。
  6. 人間のエンゲージメントを促進する方法であって、
    複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記プロセッサに動作可能に結合されたセンサと、を備える、提供するステップと、
    すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信するステップと、
    前記電子機器の1以上のプロセッサ及び前記電子機器の1以上のセンサのうちの1以上によって一時停止指示を検出するステップと、
    前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止するステップと、
    前記1以上のプロセッサによって、前記シリアルコンテンツの配信の一時停止に続く1以上のその後のシリアルコンテンツコンテキストを決定するステップと、
    前記1以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記1以上のその後のシリアルコンテンツコンテキストに基づいて1人以上のユーザとのインタラクションを開始するステップと、を含む方法。
  7. 人間のエンゲージメントを促進する方法であって、
    複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、を備える、提供するステップと、
    すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信するステップと、
    1以上のプロセッサによって、前記シリアルコンテンツから1以上のシリアルコンテンツコンテキストを決定するステップと、
    前記1以上のプロセッサによって、前記1以上のシリアルコンテンツコンテキストが1以上の既定のコンテキストと一致することを決定するステップと、
    前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止するステップと、
    前記1以上のプロセッサによって、前記シリアルコンテンツから、前記シリアルコンテンツの配信の一時停止に続く1以上のその後のシリアルコンテンツコンテキストを決定するステップと、
    前記1以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記1以上のその後のシリアルコンテンツコンテキストに基づいて1人以上のユーザとのインタラクションを開始するステップと、を含む方法。
  8. 人間のエンゲージメントを促進する方法であって、
    複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記プロセッサに動作可能に結合されたセンサと、を備える、提供するステップと、
    すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信するステップと、
    1人以上のユーザとのインタラクションから、1以上のセンサからインタラクションデータを取得するステップと、
    1以上のプロセッサを使用して、前記1人以上のユーザによる1以上のコンテンツ反応を前記インタラクションデータから分類するステップと、
    前記1以上のプロセッサによって、前記1以上のコンテンツ反応が1以上の既定の反応と一致することを決定するステップと、
    前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止するステップと、
    前記1以上のプロセッサによって、前記シリアルコンテンツの配信の一時停止に続く1以上のその後のシリアルコンテンツコンテキストを決定するステップと、
    前記1以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記1以上のその後のシリアルコンテンツコンテキストに基づいて前記1人以上のユーザとのインタラクションを開始するステップと、を含む、方法。
  9. 人間とマシンとのエンゲージメントを促進する方法であって、
    プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記プロセッサに動作可能に結合されたセンサと、を備える電子機器をユーザの近くに提供するステップと、
    前記出力装置上でシリアルコンテンツを配信するステップと、
    前記プロセッサ及び前記センサの一方又は両方によって一時停止指示を検出するステップと、
    前記出力装置上で前記シリアルコンテンツの配信を一時停止するステップと、
    前記プロセッサによって、前記シリアルコンテンツの配信の一時停止に続く1以上のその後のシリアルコンテンツコンテキストを決定するステップと、
    前記プロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記1以上のその後のシリアルコンテンツコンテキストに基づいて前記ユーザとのインタラクションを開始するステップと、を含む方法。
  10. 人間とマシンとのエンゲージメントを促進する方法であって、
    プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記プロセッサに動作可能に結合されたセンサと、を備える電子機器をユーザの近くに提供するステップと、
    前記出力装置上でシリアルコンテンツを配信するステップと、
    前記プロセッサによって、前記シリアルコンテンツから1以上のシリアルコンテンツコンテキストを決定するステップと、
    前記プロセッサによって、前記1以上のシリアルコンテンツコンテキストが1以上の既定のコンテキストと一致することを決定するステップと、
    前記出力装置上で前記シリアルコンテンツの配信を一時停止するステップと、
    前記プロセッサによって、前記シリアルコンテンツから、前記シリアルコンテンツの配信の一時停止に続く1以上のその後のシリアルコンテンツコンテキストを決定するステップと、
    前記プロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記1以上のその後のシリアルコンテンツコンテキストに基づいて前記ユーザとのインタラクションを開始するステップと、を含む方法。
  11. 人間とマシンとのエンゲージメントを促進する方法であって、
    プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記プロセッサに動作可能に結合されたセンサと、を備える電子機器をユーザの近くに提供するステップと、
    前記出力装置上でシリアルコンテンツを配信するステップと、
    前記ユーザとのインタラクションから、前記センサからのインタラクションデータを取得するステップと、
    前記プロセッサを使用して、前記インタラクションデータから、前記ユーザによる1以上のコンテンツ反応を分類するステップと、
    前記プロセッサによって、前記1以上のコンテンツ反応が1以上の既定の反応と一致することを決定するステップと、
    前記出力装置上で前記シリアルコンテンツの配信を一時停止するステップと、
    前記プロセッサによって、前記シリアルコンテンツの配信の一時停止に続く1以上のその後のシリアルコンテンツコンテキストを決定するステップと、
    前記プロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記1以上のその後のシリアルコンテンツコンテキストに基づいて前記ユーザとのインタラクションを開始するステップと、を含む方法。
  12. 前記電子機器の各々は、1以上のタブレット機器、携帯電話、ラップトップコンピュータ、デスクトップコンピュータ、ゲーミング機器、モニタ、テレビ、スマートディスプレイ、スピーカ、スマートスピーカ、投影装置、触覚電子ディスプレイ、仮想現実ヘッドセット、拡張現実ヘッドウェア及びホログラフィックディスプレイのうちの1以上を含む、請求項1~8のいずれか1項に記載の方法。
  13. 前記電子機器は、1以上のタブレット機器、携帯電話、ラップトップコンピュータ、デスクトップコンピュータ、ゲーミング機器、モニタ、テレビ、スマートディスプレイ、スピーカ、スマートスピーカ、投影装置、触覚電子ディスプレイ、仮想現実ヘッドセット、拡張現実ヘッドウェア及びホログラフィックディスプレイのうちの1以上を含む、請求項9~11のいずれか1項に記載の方法。
  14. 前記シリアルコンテンツは、視聴覚データ、ビデオストリーム、映画、音声録音、複数の画像、マルチメディア提示、ポッドキャスト、オーディオブック、アプリケーションによって生成された出力、及び、アニメーションのうちの1以上を含む、請求項1~11のいずれか1項に記載の方法。
  15. 前記シリアルコンテンツコンテキストは、前記シリアルコンテンツの1以上のセグメントのコンテキストラベリングを取得するステップ、自然言語処理によって前記シリアルコンテンツを分類するステップ、及び、画像認識処理により前記シリアルコンテンツを分類するステップのうちの1以上によって決定される、請求項1、2及び4~11のいずれか1項に記載の方法。
  16. 前記1以上のシリアルコンテンツコンテキストが、驚き、娯楽、恐怖、ホラー、怒り、激怒、嫌悪、イライラ、軽蔑、悲しみ、喜び、混乱、興味、退屈、平静、不安、期待、羨望、性欲、愛情及び友情のうちの1以上の1以上の人間の感情を生成するシリアルコンテンツを含む、請求項1、2及び4~11のいずれか1項に記載の方法。
  17. 前記一時停止指示は、現在時刻、前回の一時停止からの経過時間、前記シリアルコンテンツ内のマーカ、前記シリアルコンテンツ内のフレーム番号、前記シリアルコンテンツの配信開始からの時間、前記シリアルコンテンツ内の識別された画像、前記シリアルコンテンツ内の識別された画像の組み合わせ、前記シリアルコンテンツ内の識別された音声、前記シリアルコンテンツ内の識別された音声の組み合わせ、前記シリアルコンテンツ内の識別された音声と識別された画像との組み合わせ、前記1以上のセンサによって検出された画像内の識別されたオブジェクト、前記1以上のセンサによって検出された複数の画像内のオブジェクトの識別された動き、前記1以上のセンサによって検出されたボタンの押下、及び、前記1以上のセンサによって検出された識別された音声のうちの1以上から決定される、請求項1、4、6及び9のいずれか1項に記載の方法。
  18. 前記仮想エージェントは、1以上の漫画キャラクタ、表示動物、表示人物、表示アバター、表示アイコン、投影ホログラム、ロボット、アニメーション玩具、表示テキスト、声及びサウンドのうちの1以上として生成される、請求項1~11のいずれか1項に記載の方法。
  19. 前記プロセッサが人工知能によってインスタンス化される、請求項1~11のいずれか1項に記載の方法。
  20. 前記プロセッサは、1以上のリモートプロセッサに動作可能に接続される、請求項1~11のいずれか1項に記載の方法。
  21. 前記1人以上のユーザとの前記インタラクションから、少なくとも1つの前記電子機器のセンサからインタラクションデータを取得するステップと、
    1以上のプロセッサを使用して、前記インタラクションデータから、前記1人以上のユーザによる1以上のコンテンツ反応を分類するステップと、
    前記1以上のプロセッサを使用してすべての前記出力装置上で生成された前記仮想エージェントによって、前記1以上のコンテンツ反応に基づいて前記1人以上のユーザとの1以上の追加のインタラクションを開始するステップと、をさらに含む、請求項1、2、4~7、9及び10のいずれか1項に記載の方法。
  22. 前記シリアルコンテンツの配信を一時停止した後、前記1以上のプロセッサによって、1以上のその後のシリアルコンテンツコンテキストを決定するステップをさらに含む、請求項1~5のいずれか1項に記載の方法。
  23. 前記1人以上のユーザとの前記インタラクションを開始するステップは、前記1以上のプロセッサを使用する前記出力装置上で、前記1以上のその後のシリアルコンテンツコンテキストに基づいて前記1人以上のユーザとの1以上のインタラクションを開始するステップを含む、請求項22に記載の方法。
  24. 前記1人以上のユーザとの前記インタラクションから、1以上のセンサからインタラクションデータを取得するステップと、
    1以上のプロセッサを使用して、前記インタラクションデータから、前記1人以上のユーザによる1以上のコンテンツ反応を分類するステップと、
    前記1以上のプロセッサを使用して前記出力装置上で生成された前記仮想エージェントによって、前記1以上のコンテンツ反応に基づいて、前記1人以上のユーザとの1以上の追加のインタラクションを開始するステップと、をさらに含む、請求項1、2、6、7、9及び10のいずれか1項に記載の方法。
  25. 人間のエンゲージメントを促進するシステムであって、
    複数の電子機器であって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記電子機器のユーザの反応を監視するために前記プロセッサに動作可能に結合されたセンサと、を備える、複数の電子機器を備え、
    前記電子機器は、
    すべての前記電子機器の出力装置上で実質的に同時に、すべての前記電子機器のユーザがグループとして見るためのシリアルコンテンツを配信し、
    前記電子機器の1以上のプロセッサ及び前記電子機器の1以上のセンサのうちの1以上によって、前記シリアルコンテンツに対する前記ユーザの1人以上の感情的又は表情的な反応に関連する一時停止指示を検出し、
    すべての前記出力装置上で実質的に同時に、前記一時停止指示に基づいて前記シリアルコンテンツの配信を一時停止し、
    前記1以上のプロセッサによって、前記シリアルコンテンツの配信の一時停止と同時に発生する前記シリアルコンテンツに関連する1以上のシリアルコンテンツコンテキストを決定し、
    前記1以上のプロセッサを使用して、すべての前記出力装置上で実質的に同時に提示される1以上の漫画キャラクタ、表示動物、表示キャラクタ及び声のうちの1以上として仮想エージェントを生成するステップであって、前記仮想エージェントは、前記1以上のシリアルコンテンツコンテキストに基づいて前記仮想エージェントと前記ユーザの1人以上との間の会話を含むインタラクションを開始するように構成される、システム。
  26. 人間のエンゲージメントを促進するシステムであって、
    複数の電子機器であって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記電子機器のユーザの反応を監視するために前記プロセッサに動作可能に結合されたセンサと、を備える、複数の電子機器を備え、
    前記電子機器は、
    すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信し、
    前記電子機器の1以上のプロセッサ及び前記電子機器の1以上のセンサのうちの1以上によって、1人以上の前記ユーザの反応に関連する一時停止指示を検出し、
    すべての前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止し、
    前記1以上のプロセッサによって、前記シリアルコンテンツの配信の一時停止と同時に発生する1以上のシリアルコンテンツコンテキストを決定し、
    前記1以上のプロセッサを使用してすべての前記出力装置上で生成された仮想エージェントによって、前記1以上のシリアルコンテンツコンテキストに基づいて1人以上のユーザとのインタラクションを開始するように構成される、システム。
  27. 人間のエンゲージメントを促進するシステムであって、
    複数の電子機器を提供するステップであって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記プロセッサに動作可能に結合されたセンサと、を備える、提供するステップを含み、
    前記電子機器は、
    すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信し、
    1人以上のユーザとのインタラクションから、1以上のセンサからインタラクションデータを取得し、
    1以上のプロセッサを使用して、前記インタラクションデータから、前記1人以上のユーザによる1以上のコンテンツ反応を分類し、
    前記1以上のプロセッサによって、前記1以上のコンテンツ反応が1以上の既定の反応と一致することを決定し、
    前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止し、
    前記1以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記1以上のコンテンツ反応に基づいて前記1人以上のユーザとのインタラクションを開始するように構成される、システム。
  28. 人間のエンゲージメントを促進するシステムであって、
    複数の電子機器であって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、を備える、複数の電子機器を備え、
    前記電子機器は、
    すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信し、
    1以上の前記プロセッサによって、1以上のシリアルコンテンツコンテキストを決定し、
    1以上のプロセッサによって、前記1以上のシリアルコンテンツコンテキストが1以上の既定のコンテキストと一致することを決定し、
    前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止し、
    前記1以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記1以上のシリアルコンテンツコンテキストに基づいて1人以上のユーザとのインタラクションを開始するように構成される、システム。
  29. 人間のエンゲージメントを促進するシステムであって、
    複数の電子機器であって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記電子機器のユーザの反応を監視するために前記プロセッサに動作可能に結合されたセンサと、を備える、複数の電子機器を備え、
    前記電子機器は、
    すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信し、
    前記電子機器の1以上のプロセッサ及び前記電子機器の1以上のセンサのうちの1以上によって、1人以上の前記ユーザの反応に関連する一時停止指示を検出し、
    すべての前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止し、
    前記1以上のプロセッサによって、前記シリアルコンテンツの配信の一時停止と同時に発生する1以上のシリアルコンテンツコンテキストを決定し、
    前記1以上のプロセッサを使用してすべての前記出力装置上で生成された仮想エージェントによって、前記1以上のシリアルコンテンツコンテキストに基づいて1人以上のユーザとのインタラクションを開始するように構成される、システム。
  30. 人間のエンゲージメントを促進するシステムであって、
    複数の電子機器であって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記電子機器のユーザの反応を監視するために前記プロセッサに動作可能に結合されたセンサと、を備える、複数の電子機器を備え、
    前記電子機器は、
    すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信し、
    前記電子機器の1以上のプロセッサ及び前記電子機器の1以上のセンサのうちの1以上によって一時停止指示を検出し、
    前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止し、
    前記1以上のプロセッサによって、前記シリアルコンテンツの配信の一時停止に続く1以上のその後のシリアルコンテンツコンテキストを決定し、
    前記1以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記1以上のその後のシリアルコンテンツコンテキストに基づいて1人以上のユーザとのインタラクションを開始するように構成される、システム。
  31. 人間のエンゲージメントを促進するシステムであって、
    複数の電子機器であって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記電子機器のユーザの反応を監視するために前記プロセッサに動作可能に結合されたセンサと、を備える、複数の電子機器を備え、
    前記電子機器は、
    すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信し、
    1以上のプロセッサによって、前記シリアルコンテンツから、1以上のシリアルコンテンツコンテキストを決定し、
    前記1以上のプロセッサによって、前記1以上のシリアルコンテンツコンテキストが1以上の既定のコンテキストと一致することを決定し、
    前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止し、
    前記1以上のプロセッサによって、前記シリアルコンテンツから、前記シリアルコンテンツの配信の一時停止に続く1以上のその後のシリアルコンテンツコンテキストを決定し、
    前記1以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記1以上のその後のシリアルコンテンツコンテキストに基づいて1人以上のユーザとのインタラクションを開始するように構成される、システム。
  32. 人間のエンゲージメントを促進するシステムであって、
    複数の電子機器であって、各電子機器は、プロセッサと、前記プロセッサに動作可能に結合された出力装置と、前記電子機器のユーザの反応を監視するために前記プロセッサに動作可能に結合されたセンサと、を備える、複数の電子機器と、を備え、
    前記電子機器は、
    すべての前記電子機器の出力装置上で実質的に同時にシリアルコンテンツを配信し、
    1人以上のユーザとのインタラクションから、1以上のセンサからインタラクションデータを取得し、
    1以上のプロセッサを使用して、前記インタラクションデータから、前記1人以上のユーザによる1以上のコンテンツ反応を分類し、
    前記1以上のプロセッサによって、前記1以上のコンテンツ反応が1以上の既定の反応と一致することを決定し、
    前記出力装置上で実質的に同時に前記シリアルコンテンツの配信を一時停止し、
    前記1以上のプロセッサによって、前記シリアルコンテンツの配信の一時停止に続く1以上のその後のシリアルコンテンツコンテキストを決定し、
    前記1以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記1以上のその後のシリアルコンテンツコンテキストに基づいて前記1人以上のユーザとのインタラクションを開始するように構成される、システム。
  33. 人間とマシンとのエンゲージメントを促進するシステムであって、
    プロセッサと、前記プロセッサに動作可能に結合された出力装置と、ユーザの反応を監視するために前記プロセッサに動作可能に結合されたセンサと、を備える、前記ユーザの近くに提供される電子機器を備え、
    前記電子機器は、
    前記出力装置上でシリアルコンテンツを配信し、
    前記プロセッサ及び前記センサの一方又は両方によって一時停止指示を検出し、
    前記出力装置上で前記シリアルコンテンツの表示を一時停止し、
    前記プロセッサによって、前記シリアルコンテンツの表示の一時停止に続く1以上のその後のシリアルコンテンツコンテキストを決定し、
    前記プロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記1以上のその後のシリアルコンテンツコンテキストに基づいて前記ユーザとのインタラクションを開始するように構成される、システム。
  34. 人間とマシンとのエンゲージメントを促進するシステムであって、
    プロセッサと、前記プロセッサに動作可能に結合された出力装置と、ユーザの反応を監視するために前記プロセッサに動作可能に結合されたセンサと、を備える、前記ユーザの近くに提供される電子機器を備え、
    前記電子機器は、
    前記出力装置上でシリアルコンテンツを配信し、
    前記プロセッサによって、前記シリアルコンテンツから1以上のシリアルコンテンツコンテキストを決定し、
    前記プロセッサによって、前記1以上のシリアルコンテンツコンテキストが1以上の既定のコンテキストと一致することを決定し、
    前記出力装置上の前記シリアルコンテンツの配信を一時停止し、
    前記プロセッサによって、前記シリアルコンテンツから、前記シリアルコンテンツの配信の一時停止に続く1以上のその後のシリアルコンテンツコンテキストを決定し、
    前記プロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記1以上のその後のシリアルコンテンツコンテキストに基づいて前記ユーザとのインタラクションを開始するように構成される、システム。
  35. 人間とマシンとのエンゲージメントを促進するシステムであって、
    プロセッサと、前記プロセッサに動作可能に結合された出力装置と、ユーザの反応を監視するために前記プロセッサに動作可能に結合されたセンサと、を備える、前記ユーザの近くに提供される電子機器を備え、
    前記電子機器は、
    前記出力装置上でシリアルコンテンツを配信し、
    前記ユーザとのインタラクションから、前記センサからインタラクションデータを取得し、
    前記プロセッサを使用して、前記インタラクションデータから、前記ユーザによる1以上のコンテンツの反応を分類し、
    前記プロセッサによって、前記1以上のコンテンツ反応が1以上の既定の反応と一致することを決定し、
    前記出力装置上で前記シリアルコンテンツの配信を一時停止し、
    前記プロセッサによって、前記シリアルコンテンツの配信の一時停止に続く1以上のその後のシリアルコンテンツコンテキストを決定するステップと、
    前記プロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記1以上のその後のシリアルコンテンツコンテキストに基づいて前記ユーザとのインタラクションを開始するように構成される、システム。
  36. 前記電子機器の各々は、1以上のタブレット機器、携帯電話、ラップトップコンピュータ、デスクトップコンピュータ、ゲーミング機器、モニタ、テレビ、スマートディスプレイ、スピーカ、スマートスピーカ、投影装置、触覚電子ディスプレイ、仮想現実ヘッドセット、拡張現実ヘッドウェア及びホログラフィックディスプレイのうちの1以上を備える、請求項25~32のいずれか1項に記載のシステム。
  37. 前記電子機器は、1以上のタブレット機器、携帯電話、ラップトップコンピュータ、デスクトップコンピュータ、ゲーミング機器、モニタ、テレビ、スマートディスプレイ、スピーカ、スマートスピーカ、投影装置、触覚電子ディスプレイ、仮想現実ヘッドセット、拡張現実ヘッドウェア及びホログラフィックディスプレイのうちの1以上を備える、請求項33~35のいずれか1項に記載のシステム。
  38. 前記シリアルコンテンツは、視聴覚データ、ビデオストリーム、映画、音声録音、複数の画像、マルチメディア提示、ポッドキャスト、オーディオブック、アプリケーションによって生成された出力、及び、アニメーションのうちの1以上を含む、請求項25~35のいずれか1項に記載のシステム。
  39. 前記シリアルコンテンツコンテキストは、前記シリアルコンテンツの1以上のセグメントのコンテキストラベリングを取得するステップ、自然言語処理によって前記シリアルコンテンツを分類するステップ、及び、画像認識処理により前記シリアルコンテンツを分類するステップのうちの1以上によって決定される、請求項25~26及び28~35のいずれか1項に記載のシステム。
  40. 前記1以上のシリアルコンテンツコンテキストが、驚き、娯楽、恐怖、ホラー、怒り、激怒、嫌悪、イライラ、軽蔑、悲しみ、喜び、混乱、興味、退屈、平静、不安、期待、羨望、性欲、愛情及び友情のうちの1以上の人間の感情を生成するシリアルコンテンツを含む、請求項25~26及び28~35のいずれか1項に記載のシステム。
  41. 前記一時停止指示は、現在時刻、前回の一時停止からの経過時間、前記シリアルコンテンツ内のマーカ、前記シリアルコンテンツ内のフレーム番号、前記シリアルコンテンツの配信開始からの時間、前記シリアルコンテンツ内の識別された画像、前記シリアルコンテンツ内の識別された画像の組み合わせ、前記シリアルコンテンツ内の識別された音声、前記シリアルコンテンツ内の識別された音声の組み合わせ、前記シリアルコンテンツ内の識別された音声と識別された画像との組み合わせ、前記1以上のセンサによって検出された画像内の識別されたオブジェクト、前記1以上のセンサによって検出された複数の画像内のオブジェクトの識別された動き、前記1以上のセンサによって検出されたボタンの押下、及び、前記1以上のセンサによって検出された識別された音声のうちの1以上から決定される、請求項25、26、28、29及び32のいずれか1項に記載のシステム。
  42. 前記仮想エージェントは、1以上の漫画キャラクタ、表示動物、表示人物、表示アバター、表示アイコン、投影されたホログラム、ロボット、アニメーション玩具、表示テキスト、声及びサウンドのうちの1以上として生成される、請求項25~35のいずれか1項に記載のシステム。
  43. 前記プロセッサは人工知能によってインスタンス化される、請求項25~35のいずれか1項に記載のシステム。
  44. 前記プロセッサは、1以上のリモートプロセッサに動作可能に接続される、請求項25~35のいずれか1項に記載のシステム。
  45. 前記1人以上のユーザとの前記インタラクションから、少なくとも1つの前記電子機器の前記センサからインタラクションデータを取得するステップと、
    前記1以上のプロセッサを使用して、前記インタラクションデータから、前記1人以上のユーザによる1以上のコンテンツ反応を分類するステップと、
    前記1以上のプロセッサを使用してすべての前記出力装置上で生成された仮想エージェントによって、前記1以上のコンテンツ反応に基づいて前記1人以上のユーザとの1以上の追加のインタラクションを開始するステップと、をさらに含む、請求項25~27及び29~35のいずれか1項に記載のシステム。
  46. 前記1以上のシリアルコンテンツコンテキストが1以上の既定のコンテキストと一致することを決定すると、前記1以上のプロセッサによって、前記シリアルコンテンツの配信の一時停止後の1以上のその後のシリアルコンテンツコンテキストを決定するステップをさらに含む、請求項25~29のいずれか1項に記載のシステム。
  47. 前記1人以上のユーザとの前記インタラクションを開始するステップは、前記1以上のプロセッサを使用して前記出力装置上で、前記1以上のその後のシリアルコンテンツコンテキストに基づいて前記1人以上のユーザとの1以上のインタラクションを開始するステップを含む、請求項46に記載のシステム。
  48. 前記1人以上のユーザとの前記インタラクションから、1以上のセンサからインタラクションデータを取得するステップと、
    1以上のプロセッサを使用して、前記インタラクションデータから、前記1人以上のユーザによる1以上のコンテンツ反応を分類するステップと、
    前記1以上のプロセッサを使用して前記出力装置上で生成された仮想エージェントによって、前記1以上のコンテンツ反応に基づいて、前記1人以上のユーザとの1以上の追加のインタラクションを開始するステップと、をさらに含む、請求項25、26及び29~32のいずれか1項に記載のシステム。
JP2024507971A 2021-04-17 2022-04-17 コンテキスト仮想エージェントによって共有コンテンツを用いてインタラクティブなエンゲージメントを向上させるシステム及び方法 Pending JP2024515899A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/233,473 2021-04-17
US17/233,473 US11366997B2 (en) 2020-06-15 2021-04-17 Systems and methods to enhance interactive engagement with shared content by a contextual virtual agent
PCT/US2022/025151 WO2022221749A1 (en) 2021-04-17 2022-04-17 Systems and methods to enhance interactive engagement with shared content by a contextual virtual agent

Publications (1)

Publication Number Publication Date
JP2024515899A true JP2024515899A (ja) 2024-04-10

Family

ID=83639725

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2024507971A Pending JP2024515899A (ja) 2021-04-17 2022-04-17 コンテキスト仮想エージェントによって共有コンテンツを用いてインタラクティブなエンゲージメントを向上させるシステム及び方法

Country Status (2)

Country Link
JP (1) JP2024515899A (ja)
WO (1) WO2022221749A1 (ja)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2400716T3 (es) * 2000-03-31 2013-04-11 United Video Properties, Inc. Sistema y método de medios interactivos para presentar contenido
US20080163204A1 (en) * 2006-12-29 2008-07-03 Dennis Morgan Method and apparatus for inventory and/or policy-based management of virtual machines on a computing device
US20110052144A1 (en) * 2009-09-01 2011-03-03 2Cimple, Inc. System and Method for Integrating Interactive Call-To-Action, Contextual Applications with Videos
US8973066B2 (en) * 2011-11-14 2015-03-03 Comcast Cable Communications, Llc Media content delivery
US9712575B2 (en) * 2012-09-12 2017-07-18 Flipboard, Inc. Interactions for viewing content in a digital magazine
US11366997B2 (en) * 2020-06-15 2022-06-21 Kinoo, Inc. Systems and methods to enhance interactive engagement with shared content by a contextual virtual agent
US11393357B2 (en) * 2020-06-15 2022-07-19 Kinoo Inc. Systems and methods to measure and enhance human engagement and cognition
WO2021257106A1 (en) * 2020-06-15 2021-12-23 Kinoo, Inc. Systems and methods for time-sharing and time-shifting interactions using a shared artificial intelligence personality

Also Published As

Publication number Publication date
WO2022221749A1 (en) 2022-10-20

Similar Documents

Publication Publication Date Title
Singh et al. Where to hide a stolen elephant: Leaps in creative writing with multimodal machine intelligence
Cambre et al. One voice fits all? Social implications and research challenges of designing voices for smart devices
US11366997B2 (en) Systems and methods to enhance interactive engagement with shared content by a contextual virtual agent
US11148296B2 (en) Engaging in human-based social interaction for performing tasks using a persistent companion device
US20170206064A1 (en) Persistent companion device configuration and deployment platform
KR102306624B1 (ko) 지속적 컴패니언 디바이스 구성 및 전개 플랫폼
Gratch et al. Virtual rapport
US10391636B2 (en) Apparatus and methods for providing a persistent companion device
WO2016011159A9 (en) Apparatus and methods for providing a persistent companion device
JP2022534708A (ja) 動的に反応する仮想キャラクターのためのマルチモーダルモデル
US11948594B2 (en) Automated conversation content items from natural language
Nishida Conversational informatics: An engineering approach
KR20210131892A (ko) 대화형 청중 시뮬레이션을 제공하는 장치 및 방법
Liu et al. Visual captions: augmenting verbal communication with on-the-fly visuals
Murali et al. Speaker hand-offs in collaborative human-agent oral presentations
WO2021007546A1 (en) Computing devices and systems for sending and receiving voice interactive digital gifts
McCallum et al. Face the music and glance: How nonverbal behaviour aids human robot relationships based in music
JP2024515899A (ja) コンテキスト仮想エージェントによって共有コンテンツを用いてインタラクティブなエンゲージメントを向上させるシステム及び方法
Pelzl et al. Designing a multimodal emotional interface in the context of negotiation
DeMara et al. Towards interactive training with an avatar-based human-computer interface
Santos et al. Voice interaction on TV: analysis of natural language interaction models and recommendations for voice user interfaces
Horned Conversational agents in a family context: A qualitative study with children and parents investigating their interactions and worries regarding conversational agents
CN113301352A (zh) 在视频播放期间进行自动聊天
op den Akker et al. Computational models of social and emotional turn-taking for embodied conversational agents: a review
WO2018183812A1 (en) Persistent companion device configuration and deployment platform