JP2022546190A

JP2022546190A - 動画ストーリーラインの適応

Info

Publication number: JP2022546190A
Application number: JP2022502547A
Authority: JP
Inventors: ビュッセル，ベアート; ボテア，アディ; チェン，ベイ; 章宏岸本
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-08-22
Filing date: 2020-08-14
Publication date: 2022-11-04
Also published as: US11429839B2; US20210056407A1; GB2602904A; DE112020002997T5; CN114303159A; WO2021033104A1; GB2602904B; GB202203703D0

Abstract

ニューラル・ネットワークは、入力層、１以上の隠れ層および出力層を有する。入力層は、状況コンテキスト入力副層、（いくつかの実施形態においては）背景コンテキスト入力副層および環境入力副層に分割される。出力層は、選択または順序付け出力副層および環境出力副層を有する。層（副層を含む。）の各々は、複数のニューロンを有し、複数のニューロンの各々は、活性値を有する。状況コンテキスト、環境情報および背景コンテキストは、ニューラル・ネットワークに入力されてもよく、ニューラル・ネットワークは、視聴者のセンチメント、環境もしくは背景またはこれらの組み合わせに基づいて、ストーリーを変更するために用いられる、選択されたストーリーラインを動的に選択および順序付けするために用いる出力を生成する。

Description

本発明は、人工知能および人工現実（アーティフィシャル・リアリティ）に関する。より詳細には、本発明は、ユーザまたは視聴者のコンテキストもしくは環境またはこれらの両方に基づいて、１以上のメディア（ビデオもしくは音声またはこれらの両方）ストリームを動的に変更し、もしくは適応し、またはこれらの両方を行い、拡張された視聴者経験をもたらし、もしくはメディア・プロバイダの目的をより効果的に達成し、またはこれらの両方をすることに関する。

人工知能およびコンシューマ・エレクトロニクスの分野は、映画およびエンターテイメント産業に集り、複数の現場におけるビデオおよび音声コンテンツを、複数の経路を介してユーザにもたらしている。映画、コンサートおよびイベントは、現場（劇場、コンサートホールおよびスタジアムなど）やテレビジョン上のみならず、コンピュータやｉＰｈｏｎｅ（登録商標）上のメディアとしても経験されており、ここでは、コンテンツは、オンデマンドで、連続的にまたは間欠的に、そして種々の時間、位置およびユーザの状況において消費されることができる。しかしながら、典型的には、これらのメディアは、一定不変のコンテンツで、イベント、画像、音声もしくはスピーチまたはこれらの組み合わせが固定的な順序のもののみで利用可能である。そのようなメディアは静的である傾向があり、一定不変で、メディアが提示される環境もしくはユーザまたは視聴者がメディアを消費するコンテキストまたはこれらの両方における変化に反応できない傾向がある。多くの場合、一度コンテンツが作成されると、例えば、ユーザまたは視聴者の構成（視聴者層）、数、気持ち、感情、ユーザまたは視聴者の背景、もしくはメディアが提示される環境のパラメータまたはこれらの組み合わせなど、ユーザまたは視聴者のセンチメント、コンテキストまたは環境に基づいて、コンテンツを変更する方法がない。

ユーザまたは視聴者のセンチメント、コンテキストおよび環境に適応可能にメディア・コンテンツおよび順序付けを変更することを可能とすることが求められている。このため、当該技術分野において上記課題を解決することが必要である。

第１の側面から観るとは、本発明は、メディア・ストリームを適合させるための制御システムを提供し、本制御システムは、入力層、１以上の隠れ層および出力層を有するニューラル・ネットワークであって、入力層は、状況コンテキスト入力副層および環境入力副層を有し、出力層は、選択または順序付け出力副層および環境出力副層を有し、層の各々は、複数のニューロンを有し、複数のニューロンの各々は、活性値を有する、ニューラル・ネットワークと；それぞれ、視聴者をモニタする１以上のセンサからの１以上のコンテキスト入力と、状況コンテキスト入力副層に接続された１以上のセンチメント出力とを有する１以上の状況コンテキスト・モジュールと；１以上の環境センサ入力と、環境入力副層に接続された環境出力とを有する１以上の環境情報モジュールと、選択または順序付け出力副層に接続された１以上の選択モジュールと；選択または順序付け出力副層に接続された１以上の順序付けモジュールとを含み、選択モジュールは、１以上の選択されたストーリーラインを選択するために動作可能であり、順序付けモジュールは、選択されたストーリーラインを、再生されるストーリーに順序付けするために動作可能である。

さらなる側面から観るとは、本発明は、ニューラル・ネットワークを訓練する方法を提供し、本方法は、複数のセンチメント活性値およびセンチメント・ニューロンについて、それぞれ、状況コンテキスト入力副層におけるセンチメント・ニューロンにセンチメント活性値を入力するステップであって、状況コンテキスト入力副層は、ニューラル・ネットワークの入力層の一部であり、センチメント活性値は、センチメント入力パターンを形成する、入力するステップと；複数の環境活性値および環境ニューロンについて、それぞれ、環境入力副層における環境ニューロンに環境活性値を入力するステップであって、環境入力副層は、ニューラル・ネットワークの入力層の一部であり、環境活性値は、環境入力パターンを形成する、入力するステップと；センチメント入力パターンおよび環境入力パターンを、ニューラル・ネットワークを通して伝播させるステップと；ニューラル・ネットワークの出力層に適用される損失関数を最小化することによって、１以上の重みおよび１以上のバイアスをどれだけ変化するかを決定するステップであって、出力層は、それぞれ出力活性値を有する、選択または順序付け出力副層および環境出力副層を有する、決定するステップと；重みおよびバイアスを変化させるために後方伝搬するステップと；出力活性値が所望の結果に達するまで前２ステップを繰り返し、訓練を終了させるステップと；を含む。

さらなる側面から観るとは、本発明は、請求項１～１４のいずれか１項に記載の制御システムを制御するための制御実装方法を提供し、本方法は、視聴者と、状況コンテキスト入力副層に接続された１以上のセンチメント出力とをモニタするステップと；１以上の選択されたストーリーラインを選択するステップと；選択されたストーリーラインを、再生されるストーリーに順序付けするステップとを含む。

さらなる側面から観るとは、本発明は、システムを管理するためのコンピュータ・プログラム製品を提供し、本コンピュータ・プログラム製品は、処理回路によって可読であり、かつ、処理回路によって、本発明の方法を実行するための実行命令を格納するコンピュータ可読ストレージ媒体を含む。

さらなる側面から観るとは、本発明は、コンピュータ可読媒体に格納され、デジタル・コンピュータの内部メモリに読み込み可能なコンピュータ・プログラムを提供し、コンピュータ・プログラムは、プログラムがコンピュータ上で実行された場合、本発明の方法を実行するためのソフトウェア・コード部分を含む。

さらなる側面から観るとは、本発明は、ストーリーライン制御システムを提供し、本ストーリーライン制御システムは、入力層、１以上の隠れ層および出力層を有するニューラル・ネットワークであって、入力層は、状況コンテキスト入力副層、背景コンテキスト入力副層および環境入力副層を有し、出力層は、選択または順序付け出力副層および環境出力副層を有し、層の各々は、複数のニューロンを有し、複数のニューロンの各々は、活性値を有する、ニューラル・ネットワークと；それぞれ、視聴者をモニタする１以上のセンサからの１以上のコンテキスト入力と、状況コンテキスト入力副層に接続された１以上のセンチメント出力とを有する１以上の状況コンテキスト・モジュールと；１以上の環境センサ入力および環境入力副層に接続された環境出力を有する１以上の環境情報モジュールと、選択または順序付け出力副層に接続された１以上の選択モジュールと；選択または順序付け出力副層に接続された１以上の順序付けモジュールとを含み、選択モジュールは、１以上の選択されたストーリーラインを選択し、順序付けモジュールは、選択されたストーリーラインを、再生されるストーリーに順序付けする。

本発明は、訓練するための方法およびシステムを稼働させる方法を含むストーリーライン制御システムである。

システムにおいてニューラル・ネットワークが用いられる。いくつかの実施形態においては、ニューラル・ネットワークは、畳み込みニューラル・ネットワーク（ＣＮＮ）である。ニューラル・ネットワークは、入力層、１以上の隠れ層および出力層を有する。入力層は、状況コンテキスト入力副層、（いくつかの実施形態においては）背景コンテキスト入力副層および環境入力副層に分割される。出力層は、選択または順序付け出力副層および環境出力副層を有する。層（副層を含む。）の各々は、複数のニューロンを有し、複数のニューロンの各々は、活性値を有する。

１以上の状況コンテキスト・モジュールは、それぞれ、視聴者をモニタする１以上のセンサからの１以上のコンテキスト入力と、状況コンテキスト入力副層に接続された１以上のセンチメント出力とを有する。

１以上の環境情報モジュールは、視聴者環境をモニタする１以上の環境センサ入力と、環境入力副層に接続された環境出力とを有する。

いくつかの実施形態においては、１以上の背景コンテキスト・モジュールは、視聴者の特性を含む１以上の背景入力と、環境入力副層に接続される背景出力とを有する。

１以上の選択モジュールは、選択または順序付け出力副層に接続され、１以上の選択されたストーリーラインの選択を制御する。

１以上の順序付けモジュールは、選択または順序付け出力副層に接続され、選択されたストーリーラインを順序付けし、例えば、ストーリーライン制御システムによって、ストーリーが再生される前またはストーリーが再生されながら、選択されたストーリーラインがストーリーを変更するようにする。

以下、本発明について、以下の図面に説明されるような好ましい実施形態を参照して、一例としてのみ、説明する。

本発明の１つのアーキテクチャを示すブロック図。環境における１以上のユーザを示す図。開始点、代替開始点、分岐点、終了点および代替終了点を含む、１以上の主ストーリーラインおよび１以上の代替ストーリーラインを有するストーリーを示す。本発明のニューラル・ネットワークの実施形態のシステム・アーキテクチャ図。本発明の一実施形態を訓練するために用いられる訓練プロセスのフローチャート。本発明の一実施形態のステップを示す動作プロセスのフローチャート。

本明細書において、用語”視聴者（audience）”は、１以上のユーザを意味する。用語”ユーザ”および”視聴者”は、一般性を失うことなく同義に使用される。非限定的な例として、視聴者コンテキストは、ユーザのセンチメント、構成（例えばユーザの層－年齢、教育、ステータス、社会的および政治的観点）、プロファイル（例えば好き、嫌い）、気持ち、感情、位置、数、時刻、環境に対する反応、メディアに対する反応、もしくは感情的な状態またはこれらの組み合わせが含まれる。いくつかの実施形態においては、２種類のユーザ／視聴者コンテキストが用いられ、それは、背景コンテキストおよび状況コンテキストである。

メディアは、ユーザの１以上に身体的な知覚を感じさせるシステムの任意の知覚出力を意味する。メディアの非限定的な例として、ビデオ、音声、スピーチ、部屋または空間の環境の変化（例えば、気流、温度、湿度など）、におい、照明、特殊効果などを挙げることができる。

環境またはユーザ／視聴者環境は、システムによって出力される任意の時間での知覚出力の一部または全部の全体である。

経験（エクスペリエンス）または視聴者／ユーザ経験は、メディア／ストーリーが再生されていること含む環境によって任意の時間に起こされる、ユーザ／視聴者によって感じられる知覚的な経験である。

１以上のメディアは、ストーリーを含み、各ストーリーは、１以上の"ストーリーライン"、例えば、サブコンポーネントまたはセグメントを有する。ストーリーラインは、開始点および終了点を有する。典型的には、ストーリーラインは、１以上のストーリーおよびストーリーの一部である、関連付けられた環境を作るために、順に再生、例えば、１以上の出力デバイス上で出力される。同一もしくは異なるまたはこれらの両方のメディアの１以上の第２のストーリーラインが、開始／終了に基づいてもしくは第１のストーリーラインにおけるキューで、またはこれらの両方で、開始または終了してもよい。

例えば、第１のビデオ・ストーリーラインが、”おばあちゃん”の家のドアの前まで歩く”赤ずきん”の画像のシーケンスを再生する。”赤ずきん”がドアを開いたとき（第１のビデオ・ストーリーにおけるキュー）、第１の音声ストーリーラインが、再生を開始し、ドアを開く音がなる。ドアが開いた後、第１のビデオおよび第１の音声ストーリーラインは、例えば、終了点で終了する。第１のビデオおよび第１の音声ストーリーラインの終了点では、第２のビデオ・ストーリーラインが、（その開始点で）開始し、”赤ずきん”が家の中には歩いて行くことを示す画像のシーケンスが再生される。第２のビデオ・ストーリーラインの中盤で、”赤ずきん”が、”大きくて悪い狼”に会う。この第２のビデオ・ストーリーラインにおけるキュー・ポイントは、オムニバス・ミュージックの第２の音声セグメントの（その開始点での）開始と、照明を落とし、音声ボリュームを上げる第１の制御システムストーリーラインとを待つ。

これらのストーリーラインのコンテンツ、選択および順序付けは、１以上のシステム出力を駆動し、ストーリーが再生されている間、動的なユーザ／視聴者環境を作り出す。コンテンツ、選択および環境が時間とともに変化する場合、ユーザ／視聴者の経験は、時間とともに変化する。

”ストーリー”は、ストーリーライン・シーケンスにおいて再生される１以上のストーリーラインの選択である。各ストーリーラインは、１以上のストーリーライン・コンテンツを有する。各ストーリーラインは、例えばビデオ、音声、環境変化（温度、気流）、におい、照明などの１または複数のメディア・タイプで再生されるか、または出力される。ストーリーラインの選択、ストーリーラインのコンテンツおよびストーリーラインの順序付けはすべて、ユーザ／視聴者の環境および経験に影響を与える。したがって、ストーリーラインの選択、コンテンツもしくは順序付けまたはこれらの組み合わせのうちの任意のものを変えることは、ストーリー中、ユーザ／視聴者の環境および経験を変化させる。環境および経験における変化は、ユーザ・コンテキストを変化させ、これは、システムに入力され、次いで、ストーリーラインの選択、コンテンツもしくは順序付けまたはこれらの組み合わせを変える可能性がある。

本発明は、ストーリーをユーザ／視聴者に配信もしくは再生またはこれらの両方をする間、リアルタイムに、ストーリーにおけるストーリーラインの選択および順序付けによってストーリー変更を可能とするシステムおよび方法である。ストーリー変更は、状況コンテキスト（ユーザ／視聴者の経験）、環境もしくは背景コンテキストまたはこれらの組み合わせに基づくことができる。

いくつかの実施形態においては、システムは、ユーザ／視聴者のコンテキストをモニタまたは入力し、１以上のストーリーラインの選択もしくは順序付けまたはこれらの両方をどのように変更するかを決定し、ストーリーもしくは環境またはこれらの両方、ひいては視聴者の経験を変化させる。いくつかの実施形態においては、変化は、いくつかの基準、例えば、経験の創出、メッセージの伝達もしくは視聴者／ユーザの反応の測定またはこれらの組み合わせに関するメディア・プロバイダの目的に基づいてなされる。

いくつかの実施形態においては、２種類のユーザ／視聴者コンテキストを使用し、これは、背景コンテキストおよび状況コンテキストである。ユーザ／視聴者の背景コンテキストは、ストーリーの再生の前に存在するコンテキストである。背景コンテキストの非限定的な例としては、ユーザ構成（例えば、ユーザ層、－年齢、教育、社会経済的ステータス、収入水準、社会的および政治的な観点）、ユーザ・プロファイル（好き、嫌い）、時刻、視聴者におけるユーザ数、天候、視聴者の位置が含まれる。状況コンテキストの非限定的な例は、気持ち、感情、環境に対する反応（環境／ストーリーについての言葉による記述、顔の表情反応など）のような視聴者における１以上のユーザのセンチメントが含まれる。

システムは、視聴者における１以上のユーザに関する背景コンテキスト情報を収集することができる。この情報は、ソーシャル・メディア、ユーザ入力、ユーザのシステムの使用をモニタすること、画像認識などから収集することができる。いくつかの実施形態においては、非ユーザ情報を含む背景コンテキスト情報、例えば、天候が入力される。背景コンテキスト情報は、カレンダー、システム・クロック、ネットワーク検索などから取得することができ、例えば、ユーザの調査からの情報を使用することができる。

加えて、システムは、状況コンテキストをモニタし、入力する。いくつかの実施形態においては、状況コンテキストは、表情もしくはユーザの気持ちまたはこれらの両方を識別するために使用される顔認識システムから収集される。いくつかの実施形態においては、システムは、単語の使用、意味、表現、ボリュームなどについて音声入力を解析し、感情状態を判定する。いくつかの実施形態においては、システムは、ストーリーラインの選択および順序付けが変化することに伴う、環境入力、メディア・タイプ、もしくは、ストーリーおよびストーリーライン・メディア・コンテンツ、またはこれらの組み合わせにおける変化に対する、視聴者の反応（例えば、顔認識および分析および音声分析などにより）を測定、記録、推測もしくは予測またはこれらの組み合わせをすることができる。

ストーリーにおいてストーリーラインのシーケンスを提示している間、システムは、音、音レベル、光レベル、光周波数、におい、湿度、温度、気流などの環境入力をモニタする。

好ましい実施形態においては、ニューラル・ネットワークが使用される。訓練フェーズの間、状況コンテキスト情報、背景コンテキスト情報もしくは環境情報またはこれらの組み合わせを含む訓練データがニューラル・ネットワークに入力される。ニューラル・ネットワークは、以下に説明するような既知の後方伝搬技術を用いて訓練される。

訓練の間、入力が入力層に入力され、出力層の出力が所望の結果と比較される。例えば、ニューラル・ネットワークの内部の詳細をどのように変更するかを決定するために損失関数を最小する際に、差分が使用される。入力が再び入力され、新たな出力が所望の出力と比較される。プロセスは、システムが訓練されるまで反復される。

動作フェーズの間、ニューラル・ネットワークの出力は、ストーリーラインおよび環境出力の選択および順序付けを制御して、メディアとして再生する１以上のストーリーを生成する。結果として得られるストーリーは、視聴者（または視聴者のモデル）に対して再生され、環境を作り出す。

動作中、視聴者の経験がモニタされ、訓練済みニューラル・ネットワークによって決定されるようにストーリーラインの選択もしくは順序付け（環境的なストーリーライン出力を含む）またはこれらの両方が変化する。ストーリーを変更するために、選択コントローラは、ストーリーラインの選択を変更し、シーケンス・コントローラは、ストーリーのシーケンスを変更し、変更されたストーリーを生成する。変更されたストーリーは、以前のストーリーラインと比較して、追加、削除もしくは変更またはこれらの組み合わせがなされたストーリーラインを有する可能性がある。

訓練済みシステムは、動作フェーズの間、より予測可能に（predictably）１以上の視聴者の経験を生成するためにストーリーラインおよび環境出力を選択および順序付けする能力が高まる。動作システムは、ストーリーを作成し、視聴体験をモニタし、即時の視聴者体験に基づいて、１以上のストーリーライン（環境出力を含む）の選択および順序付けを動的に変更し、予測可能な視聴者の反応または応答とともに視聴者のために異なる環境および結果（outcome）を作り出すことができる。これらの変更は、将来のためのストーリーのためになされてもよいし、または、ストーリーが再生されている間に”オン・ザ・フライ”で生じてもよい。

いくつかの実施形態においては、動作システムは、動的な背景コンテキスト、状況コンテキストもしくは環境またはこれらの組み合わせを織り込んだ、視聴者経験に基づいて、出力を提供するように訓練される点に留意されたい。

本発明によれば、視聴者の経験をより興奮、スリリング、影響的なものとする目的で、人工知能を使用して、そのストーリーラインを適応させることによって、視聴者のメディア（例えば、映画）とのエンゲージメント（engagement）を増大させることができる。

本発明によれば、メディア・プレゼンテーション（例えば映画）の視聴数が増加される可能性があり、これは、ストーリーラインを適応することによって、背景コンテキストおよび状況コンテキストに応じてメディア・プレゼンテーションが変化し、メディア・プロバイダの目標を達成することによって測定されるような、視聴者経験における向上を生じさせるので、視聴経験がより強烈になるためである。これらの目標は、より多くのチケットを販売すること、より多くのネットワーク・ビューを有すること、もしくはより多様な視聴者にリーチすることまたはこれらの組み合わせを含む。

本発明は、例えば、状況コンテキスト、背景コンテキストもしくは環境またはこれらの組み合わせを測定し、後の分析および使用のため例えば外部ストレージ上にこれらの情報を格納することによって、１以上のストーリーラインまたはストーリーに対する視聴者経験をモニタおよび記録することができる。

いくつかの実施形態においては、畳み込みニューラル・ネットワーク（ＣＮＮ）が、ストーリーラインの選択もしくはストーリーラインの順序付けまたはこれらの両方、または環境制御またはこれらの組み合わせを変更するために使用される。

ここで、図面、特に図１を参照し、図１は、本発明の１つのアーキテクチャ１００のブロック図である。

一実施形態において、制御システム１６０は、１以上のネットワーク、クラウド環境、リモートストレージもしくはアプリケーション・サーバ１１０またはこれらの組み合わせに接続１１０Ｃされる。ネットワーク接続１１０Ｃは、既知の任意の接続で、標準インタフェース１１０Ｃで、任意の標準的なネットワーク１１０に接続し、ネットワーク１１０は、インターネット、イントラネット、ワイド・エリア・ネットワーク（ＷＡＮ）、ローカル・エリア・ネットワーク（ＬＡＮ）、クラウドもしくは例えばＷｉ－ｆｉ（登録商標）などの無線周波接続またはこれらの組み合わせを含む。

ネットワーク接続１１０Ｃは、通信インタフェース１０４を介して、任意の既知のシステム・バス１０１によって制御システム１６０のコンポーネントに接続される。これらの中で、メディア・データは、通信インタフェース１０４を介して、システム１６０へ、またシステム１６０から、通信することができる。

例えば、中央処理ユニット（ＣＰＵ）１０３、コプロセッサ１０３もしくはグラフィカル・プロセッシング・ユニット（ＧＰＵ）またはこれらの組み合わせなどの１以上のコンピュータ・プロセッサがシステム・バス１０１に接続される。

１以上の入力／出力（Ｉ／Ｏ）コントローラ１０５が、システム・バス１０１に接続される。Ｉ／Ｏコントローラ１０５は、１以上のＩ／Ｏ接続１１５に接続される。Ｉ／Ｏ接続またはバス１１５は、例えば、無線周波数や光接続などのハード配線または無線によってＩ／Ｏデバイスを接続する。Ｉ／Ｏデバイスの例としては、外部ストレージ１１１（例えば、ＣＤ／ＤＶＤデバイスのようなポータブル・データ・ストレージ、外部ハード・ドライブ、クラウド・ストレージなど）、１以上の入力センサ１１２、例えばグラフィカル・ユーザ・インタフェース（ＧＵＩ）などの１以上のディスプレイ１１３、例えば環境コントローラなどの１以上の他のコントローラ１１４とが含まれる。メディア・コンテンツもしくはストーリーライン情報またはこれらの両方は、ネットワーク接続１１０ＣもしくはＩ／Ｏ接続１１５またはこれらの組み合わせを超えて、例えば外部ストレージ１１１，ディスプレイ／ＧＵＩ１１３および他の（例えば環境）出力１１４と通信されてもよい。

１以上のメモリ１０２がシステム・バス１０１に接続される。例えば１以上のオペレーティングシステム（ＯｐＳｙｓ）などのシステム・ソフトウェア１０６、例えばキャッシュメモリなどのオペレーション・ストレージ１０７、および１以上のアプリケーション・ソフトウェア・モジュール１０８がメモリ１０２にアクセス可能に格納される。

他のアプリケーションが、システム１６０上で実行するためにメモリ１０２に常駐していてもよい。これらのアプリケーションの１以上の機能も、実行のために結果がシステム１６０に提供されるとして、システム１６０に対し外部的に実行されてもよい。状況コンテキスト・モジュール１２０は、ストーリーラインまたはストーリーが再生されている間、状況コンテキストに影響を与える入力を解析する。背景コンテキスト・モジュール１３０は、背景コンテキスト情報を解析する。環境モジュール１４０は、ストーリーラインまたはストーリーが再生されている間、環境の効果を分析する。選択モジュール１５０は、再生するためのストーリーラインを選択する。順序付けモジュール１６５は、選択されたストーリーラインが再生されるシーケンスを選択する。選択モジュール１５０および順序付けモジュール１６５の出力は、状況コンテキスト１２０、背景コンテキスト１３０、環境情報１４０もしくはシステム構成またはこれらの組み合わせの分析に基づいて、ストーリーを再生する前あるいはストーリーを再生しながら動的に、実行することができる。環境モジュール１７０は、環境出力を、選択され、順序付けされたストーリーラインおよびプログラムと調整し、Ｉ／Ｏコントローラ１０５を介して環境出力を制御する。

図２は、ユーザ環境２００における1以上のユーザ／視聴者２５０の図である。環境２００は、１以上の入力および１以上の出力を有する空間を含む。入力は、イメージ・キャプチャ・デバイス（例えば、カメラ２０５）、オーディオ・キャプチャ・デバイス２１０（マイクロフォン２１０）およびグラフィカル・ユーザ・インタフェース（ＧＵＩ）１１３のようなセンサ１１２を含む。入力は、また、温度検出器２３０、湿度検出器（図示せず）１１２および位置検出器２８０のような環境入力を含む。出力は、ＧＵＩ１１３、テレビジョン、ディスプレイ、家庭用エンターテイメント・システム２５５および音声出力装置（例えば、スピーカ）２１５を含む。いくつかの環境出力（例えば２２５）は、環境コントローラ１０５によって、例えば、バス１１５を介して、制御され、照明２２５、温度、湿度および空気流を含む環境パラメータを制御する。

携帯電話２７５、データ・アシスタント、モニタ（例えば、"ｆｉｔｂｉｔ（登録商標）"および心拍数モニタ）、血圧モニタ、呼吸検出器、モーション検出器のような補助デバイスおよびコンピュータは、入力もしくは出力またはこれらの両方をユーザ、典型的には２５０に提供する。マイクロフォン２１０、温度センサ２３０、携帯電話２７５およびカメラ２０５のような入力およびスピーカ２１５、携帯電話２７５、照明２２５のような出力は、おもちゃ２４５などを含む環境２００の任意の場所に位置してもよい。入力および出力は、例えば、バス１１５を用いてハードワイヤードでまたは無線で接続することができる。

視聴者（典型的には２５０）は、１以上のユーザ２５０を含む。ユーザ２５０は、異なる特性を有する。例えば、1人のユーザ２５０は、親２５０Ｐであってよく、他のユーザ２５０は、若年者２５０Ｃとすることができる。視聴者２５０は様々である可能性がある。視聴者２５０の非限定的な例は、ＴＶを見る家族、映画を見るグループ、ビデオゲームをプレイするグループ、エンターテイメント会場における群衆、コマーシャルの視聴者、教室の生徒、テーマパークでのグループ、映画館の観客、競技または政治的なイベントに参加する人々を含む。

制御システム１６０は、Ｉ／Ｏデバイス（１１２、１１３、１１４など）への接続がある任意の場所に位置してもよい。例えば、制御システム１６０は、エンターテイメント・システム２５５内に位置してもよい。いくつかの実施形態においては、制御システム１６０は、ネットワーク／クラウド１１０に通信インタフェース１０４を介して（有線または無線で）接続される１１０Ｃ。

センサ１１２は、特に、それぞれのＩ／Ｏコントローラ１０５へのバス接続１１５を介したユーザ２５０から信号（例えば、画像および音声）をキャプチャする。信号が処理され、受信された信号の内容が、状況コンテキスト・モジュール１２０、背景コンテキスト・モジュール１３０および環境モジュール１４０のうちの１以上によって解析される。いくつかの実施形態では、ネットワーク／クラウド１１０、インタフェース１１３を介したユーザ入力、センサ、もしくは携帯電話２７５およびストレージ１１１のような補助デバイスからの入力、またはこれらの組み合わせのうちの１以上から情報がまた受信される。

これらの入力を使用して、状況コンテキスト・モジュール１２０、背景コンテキスト・モジュール１３０および環境モジュール１４０は、状況コンテキスト２６０、背景コンテキストもしくは環境２００における環境パラメータ（例えば、温度、音量、照明レベル、湿度など）またはこれらの組み合わせを決定する。

非限定的な例が提示される。

ステレオカメラ２０５は、状況コンテキスト・モジュール１２０のために状況コンテキスト・モジュール１２０に信号を提供し、状況コンテキスト・モジュール１２０は、身体姿勢認識を実行し、驚き、笑い、悲しみ、興奮などのような１以上のユーザ２５０の反応２６０を決定する。

カメラ２０５は、状況コンテキスト・モジュール１２０に信号を提供し、状況コンテキスト・モジュール１２０は、顔認識を行い、表情に基づいて、ユーザ２５０の反応２６０を決定する。

赤外線カメラ２０５は、状況コンテキスト・モジュール１２０に信号を提供し、状況コンテキスト・モジュール１２０は、ユーザ２５０の反応２６０を表す身体および顔の温度を決定する。

温度計２３０センサ１１２は、環境モジュール１４０に信号を提供し、環境２００の環境パラメータである周囲温度を測定する。

マイクロフォン２１０は、環境モジュール１４０に信号を提供し、環境２００内の周囲音レベルを決定する。

マイクロフォン２１０は、状況コンテキスト・モジュール１２０に信号を提供し、状況コンテキスト・モジュール１２０は、音声および音（例えば、泣いている、笑っている）の認識を行う。１以上ユーザ２５０の反応２６０を決定するために自然言語処理ＮＬＰが使用されてもよい。いくつかの実施形態においては、状況コンテキスト・モジュール１２０は、ＮＬＰを実行し、再生するストーリーに言及しているキーフレーズを検出する。ＮＬＰは、ストーリーの進行もしくは終了またはこれらの両方に関するユーザ２５０の期待もしくはセンチメントまたはこれらの両方を示す、ユーザ２５０が話したフェーズ（phases）を検出することができる。

センサ１１２から受信した画像データを用いて、状況コンテキスト・モジュール１２０は、ユーザ２５０の反応２６０の標示を与える可能性のある年齢認識を実行することができる。

状況コンテキスト・モジュール１２０は、モーション・センサ１１２からのモーション・データ（例えば、迅速な動き、動きなし、歩き方など）を使用して、ユーザ反応２６０を決定することができる。

背景コンテキスト・モジュール１３０は、ネットワーク１１０、ユーザ入力１１３（例えば、ユーザ調査）もしくは格納されたメモリ１１１またはこれらの組み合わせから受信した情報を使用して、１以上のユーザ２５０のユーザプロファイルを形成する。情報は、ソーシャル・メディア・アカウント上の記述およびアクティビティ、ソーシャル・メディア上のユーザグループおよび友人に関する情報、ユーザの検索活動、訪問したウェブ・サイト、求めた商品情報、購入されたアイテムなどから収集されてもよい。同様の情報は、携帯電話２７５のような補助デバイス上のアクティビティからアクセスされてもよい。もちろん、適切な許可およびアクセス特権が、この情報にアクセスする際に取得される必要がある。

状況コンテキスト・モジュール１２０の出力は、センチメントもしくはユーザ反応またはこれらの両方のセットを含み、これらの各々は、ユーザの１以上についてのセンチメント／反応２６０のレベルを表す反応値／スコアを有する。これは、ユーザ２５０の各々のセンチメント・ステータスまたはセンチメント・パターンを表す。いくつかの実施形態においては、このセンチメント・パターン／ステータスは、図４において説明するようなニューラル・ネットワークにおける状況コンテキスト副層に入力される。いくつかの実施形態においては、まず、ユーザ２５０は、それらのセンチメント・ステータスに従って分類される。いくつかの実施形態においては、アグリゲータは、複数のユーザ２５０のセンチメント／反応２６０を集約し、視聴者２５０もしくは視聴者全体２５０またはこれらの両方における１以上のグループ（２５０Ｐ，２５０Ｃ）のセンチメント・ステータスを表す、センチメント／反応２６０の集約されたセットおよび対応する値を決定する。ストーリーが再生されている間、センチメント・ステータスは、変化する可能性がある。

背景コンテキスト・モジュール１３０の出力は、ユーザ２５０のうちの１以上のユーザ・プロファイルである。各ユーザ・プロファイルは、所与のユーザ２５０についてのユーザ特性の各々のレベルを表す関連特性値／スコアを有する複数のユーザ特性を有する。いくつかの実施形態においては、ユーザ・プロファイルは、類似度によってグループ化される。いくつかの実施形態においては、プロファイル・アグリゲータは、複数のユーザ２５０のプロファイルを集約し、視聴者２５０もしくは視聴者全体２５０またはこれらの両方における１以上のグループ（２５０Ｐ，２５０Ｃ）のプロファイルを表す、それぞれのプロファイル値／スコアを有する集約プロファイルを決定する。プロファイルは、ストーリーが再生されている間に変化する可能性があるが、いくつかの実施形態においては、プロファイルの変化は、あまり動的ではないと予想される。いくつかの実施形態においては、図４で示すように、特性のプロファイルが、活性値のパターン４１０として、背景コンテキスト副層４５４に入力される。

環境モジュール１４０の出力は、環境２００の環境プロファイルである。環境プロファイルは、複数の環境パラメータを有し、各々は、所定の時刻に環境２００において各パラメータが有するレベルを表す関連パラメータ値／スコアを有する。環境プロファイルは、ストーリーが再生される間変化する。制御システム１６０は、また、ストーリーラインの選択および順序付けを変更することによって、環境２００およびひいては環境プロファイルを変更することができる。いくつかの実施形態においては、環境パラメータの環境プロファイルは、図４に示すように、環境副層４５６に、活性値のパターン４１０として入力される。

図３は、開始点３０１、代替開始点３０２、分岐点３８０、終了点３０９および代替終了点３１０を含む、１以上のメインストーリーライン（３０４，３９４）および１以上の代替ストーリーライン３８３を有するストーリー３００を示す。

図３は、開始点３０１から直接終了点３０９までのメインストーリーラインまたはストーリーの１以上のストーリーライン（３０３，３２３，３３３，３４３，３６３，３９３，典型的には３８３）を有するストーリー３００の図である。ここには、第１のストーリーおよび代替ストーリーライン３８３を定義するストーリーライン３８３がある。代替ストーリーは、第１／オリジナルのストーリーにおいて、ストーリーライン３８３を加えること、挿入することもしくは削除することまたはこれらの組み合わせを行うことによって第１／オリジナルのストーリーから展開する。

ストーリー３００は、例えば開始点３０１および終了点３０９を有する。代替開始点３０２および代替終了点３１０が存在し得る。

加えて、分岐点が存在する。分岐点は、ストーリー３００における、ストーリーライン３８３を挿入、削除、または追加することによってストーリー３００が変更され得る点である。いくつかの実施形態においては、代替的なストーリーライン３８３が、例えば分岐点３４０および３４５で開始および終了し、ストーリーの連続性を変えることなく、オリジナルのストーリーの内容を変更する。

分岐点は、通常、ストーリーラインの開始点、例えば３２０、３３０、３４０、３６０，３７０，典型的には３８０、またはストーリーラインの終了点３１５、３２５、３３５、３６５、典型的には３８５と一致する。ストーリーラインの開始点３８０を分岐点に一致させ、ストーリーラインの終了点３８５を分岐点に一致させることによって、ストーリー３００は、シーケンスにおける以前のストーリーラインの代わりに挿入されたストーリーラインを（分岐点に一致する開始点および終了点で）再生することによって変化する可能性がある。

例えば、ストーリー３００は、もとは、３０１で開始し、点３０１と分岐点３１５との間でストーリーライン３０４を再生するように順序付けされる。システムは、開始点３０２で開始し、ストーリーライン３０４の代わりにストーリーライン３０３を再生し、ストーリーライン３０３および３０４の両方の終了点で共通する分岐点３１５でストーリーライン３０３を終了させることによって、ストーリー３００を変更することができる。ストーリーライン３０４をストーリーライン３０３の代わりに用いることによって、制御システム１６０は、ストーリー３００におけるストーリーライン３８３の選択（３０３ではなく３０４を選択する）および順序付け（３０４を最初に再生し、３０３を再生しない）を変更した。

さらなる例として、オリジナルのストーリー３００が３０１で開始し、開始点３０１と直接３０９との間で単一のストーリーラインを再生することによって継続すると仮定する。このオリジナルのストーリーは、異なるストーリーラインを異なる順序で選択することによって、多くの方法で変更することができる。ストーリーは、３０１で開始し、分岐点３２０まで継続することができ、分岐点３２０では、ストーリーライン３２３が選択されて、分岐点３２５まで再生される。代替的に、オリジナルのストーリーが、３０２で開始し、分岐点３３０まで継続してもよく、分岐点３３０では、システム１６０は、ストーリーライン３３３を選択し、分岐点３３５においてオリジナルのストーリーラインに戻る。また再び、システムは、３０１から開始するストーリーラインを再生することができ、システム１６０は、ストーリーライン３４３を選択して、分岐点３４０で開始し、分岐点３４５でオリジナルのストーリーラインに戻ってくることができる。ストーリーライン３９３および３９４は、いずれのストーリーの終了点をシステムが分岐点３７０で選択し、再生するかに応じて、ストーリー３００において代替終了点（３０９または３１０のいずれか）を提供する。代替ストーリーライン（例えば３６３）内において、例えばキュー点で、別のストーリーライン３０５を開始または終了することができる、分岐点３６７が存在し得ることに留意されたい。

ストーリーライン３８３を”再生”することにより、順序付けられ再生された、選択されたストーリーライン３８３に対応する、上述したように、１以上の出力が、視聴者２５０にメディアを提供することを可能とする。

図４は、本発明のニューラル・ネットワーク４００の一実施形態のシステム・アーキテクチャ図である。

ニューラル・ネットワーク４００は、複数のニューロン、典型的には４０５を有する。ニューロン４０５の各々は、活性値４１０と参照される値を格納する。例えば、ニューロン４０５は、値”３”の活性値を保持する。明確化のため図４においては、ニューロンおよび活性値の大部分には符番が付されていない。

ニューラル・ネットワーク４００は、複数の層、例えば、４２０、４２２，４２４、４２５、典型的には４２６を含む。第１層または入力層４２０と、最終層または出力層４２６が存在する。入力層４２０と出力層４２６との間には、１以上の隠れ層、例えば４２２，４２４が存在する。層４２５の各々は、複数のニューロン４０５を有する。いくつかの実施形態においては、層４２５の数および層各々におけるニューロン４０５の数は、実験によって経験的に決定される。

いくつかの実施形態においては、前層の全てのニューロンは、それぞれ、エッジ４１５によって、次層のニューロンの各々に接続される。例えば、次（隠れ）層４２２の典型的なニューロン４０６は、エッジ４１５によって、入力層４２０内の各ニューロン４０５に個別に接続される。いくつかの実施形態においては、エッジ４１５の１以上は、関連する重みＷ４１８を有する。同様なやり方４３０で、次の層、例えば４２２の各ニューロン４０６は、エッジ４１５によって、前層、例えば４２０のニューロン４０５のすべてに接続される。同種の接続４１５が、第２の隠れ層４２４における各ニューロンと、第１の隠れ層４２２の各ニューロンとの間でなされ、同様に、出力層４２６の各ニューロン４９５と、第２隠れ層４２４のすべてのニューロンとの間でもなされる。これらの接続４３０は、明確化のため図４には示されていない。

いくつかの実施形態においては、各ニューロン４０６内の活性値４１０は、前層における各接続されたニューロン４０５の活性値４１０の重み付け総和によって決定される。各活性値４１０は、それぞれニューロン４０６を、前層、例えば４２０における対応するニューロン４０５の各々に接続するエッジ４１５の重み（Ｗ，４１８）によって重み付けされる。

従って、前層、例えば４２０における活性値４１０のパターンは、それぞれのエッジ４１５の重み（ｗ，４１８）とともに、次の層、例えば４２２における活性値４０６のパターンを決定する。同様のやり方で、前層、例えば４２２における活性値４０６のセットの重み付け総和は、各ニューロン、典型的には４０５の活性値、ひいては、次層、例えば４２４におけるニューロンの活性値のパターンを決定する。このプロセスは、出力層４２６におけるニューロン４９５の各々における活性値、典型的には４９０の活性値で表される、活性値のパターンが現れるまで継続する。よって、入力層４２０において活性値のパターン４０５が与えられると、ニューラル・ネットワーク４００の構造、重み（ｗ，４１８）およびバイアスｂ（以下に説明する。）は、出力層３２６におけるニューロン４９５の各々の活性値である活性値出力パターンを決定する。入力層４２０における活性値のセットが変化し、ひいては、出力層４２６における活性値のセットも同様に変化する。隠れ層（４２２，４２４）における変化する活性値のセットは、物理的な意味を有してもよくまたは有していなくともよい、抽象化のレベルである。

いくつかの実施形態においては、入力層４２０は、２以上の副層、例えば４５２，４５４，および典型的には４５６に細分される。

入力副層４５２は、状況コンテキスト副層４５２であり、状況コンテキスト・モジュール１２０の出力からの活性値４１０を受け取る。入力層４５２での活性値のパターンは、視聴者２５０のセンチメント／反応２６０のステータスを表す。例えば、状況コンテキスト副層４５２のニューロン４０５は、視聴者の幸福、興奮および不安などの反応を表す。

入力副層４５４は、背景コンテキスト副層４５３であり、背景コンテキスト・モジュール１３０の出力からの活性値４１０を受け取る。背景コンテキスト副層４５４内のニューロン４０５の活性値４１０は、ユーザ／視聴者２５０のプロファイルにおける特性の値／スコアを表す。いくつかの実施形態においては、背景コンテキスト副層４５４における活性値４１０のパターンは、特性のユーザ／視聴者２５０のプロファイルの時点における背景コンテキスト・ステータスを表す。

入力副層４５６は、環境副層４５６であり、環境モジュール１４０の出力からの活性値４１０を受け取る。環境副層４５６内のニューロン４０５の活性値４１０は、環境プロファイルにおける環境パラメータを表す値／スコアである。いくつかの実施形態においては、環境副層４５６内の活性値４１０のパターンは、ストーリーが再生されている間に時間的に変化するような環境プロファイル・ステータスを表す。

いくつかの実施形態においては、出力層４２６は、２以上の副層、例えば、４８２および４８４、典型的には４８０に細分される。

出力副層４８２は、どのストーリーラインが選択され、選択されたストーリーラインの各々が、例えば分岐点（３８０，３８５）で、いつ開始され、いつ終了するかを決定するニューロン４９５を有する。

出力副層４８４は、どのように制御システム１６０がＩ／Ｏデバイス、特に、環境２００を変えるための環境出力を制御するかを決定するニューロン４９５を有する。

ニューラル・ネットワーク４００における一の層から次の層への遷移の一数学的表現は、以下の通りである：

ここで、ａ_ｎ ^１は、次のレベル、ここではレベル１のｎ番目のニューロン４０６の活性値４１０であり；ｗ_ｎ，ｋは、現在のレベル、ここではレベル０のｋ番目のニューロン４０５と、次のレベル、ここではレベル１のｎ番目のニューロン４０６との間のエッジ４１５の重み（ｗ，４１８）であり；ｂ_ｎは、次のレベルのｎ番目のニューロン４０６の重み付け総和のためのバイアス値である。いくつかの実施形態においては、バイアス値は、ニューロンをオンするためのしきい値と考えることができる。

項σは、スケーリング係数である。例えば、スケーリング係数は、シグモイド関数または正規化線形ユニット、例えばＲｅＬＵ（ａ）＝ｍａｘ（０，ａ）とすることができる。

ニューラル・ネットワークは、全ての重み（ｗ，４１８）およびバイアスｂについての値を求めることによって訓練される。いくつかの実施形態においては、既知の後方伝搬法が、重みおよびバイアス値を求めるために使用される。

いくつかの実施形態においては、訓練を開始するために、重みおよびバイアスが、ランダム値またはある初期値セットのいずれかに設定される。出力層４２６の出力、すなわち活性値パターンが、所望の結果と比較される。損失関数（例えば、差分の二乗和の平方根）を介した実際の出力と所望の結果との比較は、所与の入力に対して出力が所望の出力にいかに近いかを測定する。損失関数は、重みおよびバイアスを所望の値に近づけるためにどれだけの大きさおよび方向で変化させるかを決定するための反復処理を介して、例えば勾配降下法によって、最小化される。重みおよびバイアスは、変更、すなわち後方伝播され、別の反復が行われる。出力層が、入力層に課された所与の活性値パターンに対して所望の結果に近い活性値パターンを生成するまで複数の反復が行われる。

代替実施形態においては、ニューラル・ネットワーク４００は、畳み込みニューラル・ネットワーク（ＣＮＮ）である。ＣＮＮにおいては、隠れ層のうちの１以上が、畳み込み層であり、この畳み込み層では、層内のパターンを検出し、強調し、または強調を抑えるための１以上のフィルタを用いて畳み込みが実行される。例えば、画像におけるサブシェイプもしくは音声のサブパターンまたはこれらの両方を検出するための異なるフィルタ・タイプが存在する。好ましい実施形態においては、フィルタ４７０は、層に対する入力にわたる畳み込みをし、層に対する入力の新たなパターンを生成する、値の行列である。

図５は、本発明の一実施形態を訓練するために用いられる訓練プロセス５００のフローチャートである。

訓練プロセス５００は、訓練されていないニューラル・ネットワーク４００とともに開始される。状況コンテキスト・モジュール１２０、背景コンテキスト・モジュール１３０および環境モジュール１４０から、初期の活性値パターンが入力層４２０に入力される。代替的には、入力はシミュレートされてもよい。

例えば、状況コンテキスト・モジュール１２０の出力は、視聴者２５０のセンチメント／反応２６０のステータスを表す活性値４１０のパターンとして状況コンテキスト副層４５２に入力される（５０５）。背景コンテキスト・モジュール１３０の出力は、ある時点における背景コンテキスト・ステータスのステータスを表す活性値４１０のパターン、つまり、特性のユーザ／視聴者２５０プロファイルのステータスとして、背景コンテキスト副層４５４に入力される。環境モジュール１４０の出力は、環境プロファイルにおける環境パラメータのステータスを表す活性値４１０のパターンとして環境副層４５６に入力される（５０５）。

ステップ５１０では、重み４１８およびバイアスｂが初期的に設定される。

ステップ５２０では、活性値４１０が出力層４２６に伝播される。

ステップ５３０では、副層４８２の出力が、ストーリーラインの所望の選択および順序付けと比較される。さらに、副層４８４の出力が、環境出力の所望の構成と比較される。損失関数は、新しい重み４１８およびバイアスｂのセットのために必要な変化の大きさおよび方向を決定するために最小化される。

ステップ５４０において、新しい重み４１８およびバイアスｂが、既知の方法によって後方伝播され、新しいセットの出力（４８２，４８４）が受領される。

入力活性値を再入力した後、ステップ５５０で確認が行われる。副層４８２および４８４の出力が所望の選択および順序付けおよび環境出力の許容範囲内にあれば、プロセス５００は、終了する。もしそうでなければ、制御は、ステップ５３０で損失関数を最小化するために戻り、処理が再び反復される。

図６は、本発明の一実施形態の動作するステップを示す動作プロセス６００のフローチャートである。

ステップ６０５において、状況コンテキスト・モジュール１２０の出力が、視聴者２５０のセンチメント／反応２６０のステータスを表す活性値４１０のパターンとして、状況コンテキスト副層４５２に入力される（６０５）。背景コンテキスト・モジュール１３０の出力が、ある時点における背景コンテキスト・ステータスのステータスを表す活性値４１０のパターン、つまり、特性のユーザ／視聴者２５０のプロファイルのステータス、として、背景コンテキスト副層４５４に入力される（６０５）。環境モジュール１４０の出力が、環境プロファイルにおける環境パラメータのステータスを表す活性値４１０のパターンとして、環境副層４５６に入力される（６０５）。

ステップ６１０では、副層４８４の出力が、環境コントローラ１７０に提供される。環境コントローラ１７０の出力は、Ｉ／Ｏコントローラおよびバス１１５を介して環境出力１１４を制御し、環境を変更する（６２０）。

ステップ６１０において、副層４８２の出力は、選択モジュール１５０および順序付けモジュール１６５に提供される。選択モジュール１５０は、副層４８２内の活性値のパターンから、いずれのストーリーライン２８３を再生すべきとして選択されているかを決定する。順序付けモジュール１６５は、選択されたストーリーラインを再生するための順序付けを決定する。

一実施形態のステップ６３０では、選択モジュール１５０は、利用可能なストーリーラインのリストを調べる。ストーリーラインが選択されない場合、副層４８２の活性値のパターンによって指定された全てのストーリーラインに当たり、選択するまで、リストの調べを継続する。代替実施形態においては、副層４８２の活性値のパターンは、どのストーリーラインが選択されるかを直接識別する。

順序付けモジュール１６５は、副層４８２の活性値のパターンから、選択されたストーリーが再生されるシーケンスを決定する。副層４８２の活性値のパターンは、また、選択されたストーリーラインが開始および終了する分岐点を決定する。ステップ６４０は、ストーリーを再生することまたはストーリーが再生されるシーケンスをモニタする。ステップ６４０において、順序付けモジュール１６５は、分岐点に到達したかどうかを判定し、順序付けモジュール１６５が、この分岐点において、選択されたストーリーラインの１つを変更（例えば、追加、削除、挿入）する必要があるかどうかを判定する。そうでなければ、順序付けモジュール１６５は、次の分岐点に到達するまで待機し、再び判定が行われる。

選択されたストーリーラインからのストーリーラインが分岐点で再生される必要がある場合には、ステップ６５０においてストーリーラインが変化する。新しいストーリーラインが再生され、（例えば、副層４８２の活性値のパターンによって示されるように）適切な分岐点で終了し、シーケンスにおけるこの時点では、オリジナルのストーリーラインが再生されない。

本開示の種々の実施形態の説明が、説明のために提示されたが、しかしながら、網羅的であること、または、開示される実施形態に限定されることを意図するものではない。説明される実施形態の範囲および精神を逸脱することなく、多くの変更および変形が当業者にとって明らかであろう。本明細書で使用される用語は、実施形態の原理、実際の応用または市場で発見される技術に対する技術的改善を最もよく説明するために、あるいは、他の当業者が、本明細書で開示される実施形態を理解できるように選ばれたものである。

種々の実施形態が、以下の番号付き条項において特定される：
（付記１）
メディア・ストリームを適合させるための制御システムであって、
入力層、１以上の隠れ層および出力層を有するニューラル・ネットワークであって、前記入力層は、状況コンテキスト入力副層および環境入力副層を有し、前記出力層は、選択または順序付け出力副層および環境出力副層を有し、前記層の各々は、複数のニューロンを有し、前記複数のニューロンの各々は、活性値を有する、前記ニューラル・ネットワークと、
それぞれ、視聴者をモニタする１以上のセンサからの１以上のコンテキスト入力と、前記状況コンテキスト入力副層に接続された１以上のセンチメント出力とを有する１以上の状況コンテキスト・モジュールと、
１以上の環境センサ入力と、前記環境入力副層に接続された環境出力とを有する１以上の環境情報モジュールと、
前記選択または順序付け出力副層に接続された１以上の選択モジュールと、
前記選択または順序付け出力副層に接続された１以上の順序付けモジュールと
を含み、前記選択モジュールは、１以上の選択されたストーリーラインを選択するために動作可能であり、前記順序付けモジュールは、選択された前記ストーリーラインを、再生されるストーリーに順序付けするために動作可能である、制御システム。
（付記２）
前記コンテキスト入力は、顔画像、赤外線画像、音声入力、音声ボリューム・レベル検出器、テキスト、話し言葉、携帯電話入力、心拍、血圧および呼吸数のうちの１以上を含む、付記１に記載の制御システム。
（付記３）
前記状況コンテキスト・モジュールは、
顔認識、位置認識、自然言語処理（ＮＬＰ）、キーフレーズの認識および音声認識
の機能のうちの１以上を実行するように動作可能である、付記１または２に記載の制御システム。
（付記４）
前記センチメント出力は、
気持ち、感情、笑い、悲しみ、期待、恐れ、興奮、環境に対する反応、１以上のストーリーラインに対する反応
のうちの１以上の視聴者センチメントを表す、付記１～３のいずれかに記載の制御システム。
（付記５）
前記環境センサ入力は、
オーディオ・キャプチャ・デバイス、マイクロフォン、ビデオ・キャプチャ・デバイス、カメラ、赤外線カメラ、ネットワーク接続、気象入力、位置センサ、携帯電話、温度計、湿度検出器、気流検出器、光強度検出器、光検出器およびモーション・センサ
のうちの１以上を含む、付記１～４のいずれかに記載の制御システム。
（付記６）
前記環境出力は、ボリューム・コントロール、照明コントロール、温度コントロール、湿度コントロール、加熱システム・コントロール、冷却システム・コントロールおよび気流コントロールのうちの１以上を含む、付記１～５のいずれかに記載の制御システム。
（付記７）
前記選択モジュールは、前記ニューラル・ネットワークにより処理された、前記センチメント出力の動的パターンおよび前記環境出力の動的パターンに基づいて、選択された前記ストーリーラインの１以上を選択するために動作可能である、付記１～６のいずれかに記載の制御システム。
（付記８）
前記順序付けモジュールは、前記ニューラル・ネットワークにより処理された、前記センチメント出力の動的パターンおよび前記環境出力の動的パターンに基づいて、選択された前記ストーリーラインの１以上を順序付けするために動作可能である、付記１～７のいずれかに記載の制御システム。
（付記９）
前記ニューラル・ネットワークは、畳み込みニューラル・ネットワーク（ＣＮＮ）である、付記１～８のいずれかに記載の制御システム。
（付記１０）
選択された前記ストーリーラインの１以上は、分岐点で始まり、分岐点で終わる、付記１～９のいずれかに記載の制御システム。
（付記１１）
前記ニューラル・ネットワークは、さらに、背景コンテキスト入力副層を含む、付記１～１０のいずれかに記載の制御システム。
（付記１２）
前記背景コンテキスト入力副層の１以上のニューロンの活性値は、
視聴者層、年齢、教育水準、社会経済的状態、収入水準、社会的および政治的な観点、ユーザ・プロファイル、好き、嫌い、時刻、視聴者のユーザ数、天候、視聴者の位置
のうちの１以上の表現を含む、付記１１に記載の制御システム。
（付記１３）
１以上のユーザの背景コンテキスト情報が
ソーシャル・メディアの投稿、ソーシャル・メディアの使用量、携帯電話の使用量、視聴者調査、検索履歴、カレンダー、システム時計、画像分析および位置情報のソースのうち
の１以上のソースから生まれている、付記１１または１２に記載の制御システム。
（付記１４）
前記選択モジュールは、選択された前記ストーリーラインの１以上を選択するために動作可能であり、前記順序付けモジュールは、前記ニューラル・ネットワークにより処理された、センチメント出力の動的パターン、背景コンテキストおよび環境出力に基づいて、選択された前記ストーリーラインの１以上を順序付けする、付記１１～１３のいずれかに記載の制御システム。
（付記１５）
ニューラル・ネットワークを訓練する方法であって、
複数のセンチメント活性値およびセンチメント・ニューロンについて、それぞれ、状況コンテキスト入力副層におけるセンチメント・ニューロンにセンチメント活性値を入力するステップであって、前記状況コンテキスト入力副層は、前記ニューラル・ネットワークの入力層の一部であり、前記センチメント活性値は、センチメント入力パターンを形成する、入力するステップと、
複数の環境活性値および環境ニューロンについて、それぞれ、環境入力副層における環境ニューロンに環境活性値を入力するステップであって、前記環境入力副層は、前記ニューラル・ネットワークの前記入力層の一部であり、前記環境活性値は、環境入力パターンを形成する、入力するステップと、
前記センチメント入力パターンおよび前記環境入力パターンを、前記ニューラル・ネットワークを通して伝播させるステップと、
前記ニューラル・ネットワークの出力層に適用される損失関数を最小化することによって、１以上の重みおよび１以上のバイアスをどれだけ変化するかを決定するステップであって、前記出力層は、それぞれ出力活性値を有する、選択または順序付け出力副層および環境出力副層を有する、決定するステップと、
前記重みおよび前記バイアスを変化させるために後方伝搬するステップと、
前記出力活性値が所望の結果に達するまで前２ステップを繰り返し、訓練を終了させるステップと
を含む、方法。
（付記１６）
前記方法は、前記訓練が終了した後、
１以上の選択されたストーリーラインを選択するステップと、
初期ストーリー内で選択された前記ストーリーラインを挿入するステップであって、選択された前記ストーリーラインの開始点は、前記初期ストーリーの開始分岐点で開始され、選択された前記ストーリーラインの終了点は、前記初期ストーリーの終了分岐点で終了される、挿入するステップと、
を含む、付記１５に記載の方法。
（付記１７）
前記環境出力層は、選択された前記ストーリーラインに関連付けられた１以上の環境出力を制御する出力活性値の動的パターンを有する、付記１６に記載の方法。
（付記１８）
選択された前記ストーリーラインを選択するステップおよび選択された前記ストーリーラインを順序付けするステップは、動的センチメント入力パターンによって決定される、付記１６または１７に記載の方法。
（付記１９）
付記１～１４のいずれかに記載の制御システムを制御するための制御実装方法であって、前記方法は、
視聴者と、状況コンテキスト入力副層に接続された１以上のセンチメント出力とをモニタするステップと、
１以上の選択されたストーリーラインを選択するステップと、
選択された前記ストーリーラインを、再生されるストーリーに順序付けするステップと
を含む、方法。
（付記２０）
システムを管理するためのコンピュータ・プログラム製品であって、
処理回路によって可読であり、かつ、前記処理回路によって、付記１５～１９のいずれかに記載の方法を実行するための実行命令を格納するコンピュータ可読ストレージ媒体
を含む、コンピュータ・プログラム製品。
（付記２１）
コンピュータ可読媒体に格納され、デジタル・コンピュータの内部メモリに読み込み可能なコンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行された場合、付記１５～１９のいずれかに記載の方法を実行するための前記ソフトウェア・コード部分を含む、プログラム。
本開示の種々の実施形態の説明が、説明のために提示されたが、しかしながら、網羅的であること、または、開示される実施形態に限定されることを意図するものではない。説明される実施形態の範囲および精神を逸脱することなく、多くの変更および変形が当業者にとって明らかであろう。本明細書で使用される用語は、実施形態の原理、実際の応用または市場で発見される技術に対する技術的改善を最もよく説明するために、あるいは、他の当業者が、本明細書で開示される実施形態を理解できるように選ばれたものである。

Claims

メディア・ストリームを適合させるための制御システムであって、
入力層、１以上の隠れ層および出力層を有するニューラル・ネットワークであって、前記入力層は、状況コンテキスト入力副層および環境入力副層を有し、前記出力層は、選択または順序付け出力副層および環境出力副層を有し、前記層の各々は、複数のニューロンを有し、前記複数のニューロンの各々は、活性値を有する、前記ニューラル・ネットワークと、
それぞれ、視聴者をモニタする１以上のセンサからの１以上のコンテキスト入力と、前記状況コンテキスト入力副層に接続された１以上のセンチメント出力とを有する１以上の状況コンテキスト・モジュールと、
１以上の環境センサ入力と、前記環境入力副層に接続された環境出力とを有する１以上の環境情報モジュールと、
前記選択または順序付け出力副層に接続された１以上の選択モジュールと、
前記選択または順序付け出力副層に接続された１以上の順序付けモジュールと
を含み、前記選択モジュールは、１以上の選択されたストーリーラインを選択するために動作可能であり、前記順序付けモジュールは、選択された前記ストーリーラインを、再生されるストーリーに順序付けするために動作可能である、制御システム。
前記コンテキスト入力は、顔画像、赤外線画像、音声入力、音声ボリューム・レベル検出器、テキスト、話し言葉、携帯電話入力、心拍、血圧および呼吸数のうちの１以上を含む、請求項１に記載の制御システム。
前記状況コンテキスト・モジュールは、
顔認識、位置認識、自然言語処理（ＮＬＰ）、キーフレーズの認識および音声認識
の機能のうちの１以上を実行するように動作可能である、請求項１または２に記載の制御システム。
前記センチメント出力は、
気持ち、感情、笑い、悲しみ、期待、恐れ、興奮、環境に対する反応、１以上のストーリーラインに対する反応
のうちの１以上の視聴者センチメントを表す、請求項１～３のいずれか１項に記載の制御システム。
前記環境センサ入力は、
オーディオ・キャプチャ・デバイス、マイクロフォン、ビデオ・キャプチャ・デバイス、カメラ、赤外線カメラ、ネットワーク接続、気象入力、位置センサ、携帯電話、温度計、湿度検出器、気流検出器、光強度検出器、光検出器およびモーション・センサ
のうちの１以上を含む、請求項１～４のいずれか１項に記載の制御システム。
前記環境出力は、ボリューム・コントロール、照明コントロール、温度コントロール、湿度コントロール、加熱システム・コントロール、冷却システム・コントロールおよび気流コントロールのうちの１以上を含む、請求項１～５のいずれか１項に記載の制御システム。
前記選択モジュールは、前記ニューラル・ネットワークにより処理された、前記センチメント出力の動的パターンおよび前記環境出力の動的パターンに基づいて、選択された前記ストーリーラインの１以上を選択するために動作可能である、請求項１～６のいずれか１項に記載の制御システム。
前記順序付けモジュールは、前記ニューラル・ネットワークにより処理された、前記センチメント出力の動的パターンおよび前記環境出力の動的パターンに基づいて、選択された前記ストーリーラインの１以上を順序付けするために動作可能である、請求項１～７のいずれか１項に記載の制御システム。
前記ニューラル・ネットワークは、畳み込みニューラル・ネットワーク（ＣＮＮ）である、請求項１～８のいずれか１項に記載の制御システム。
選択された前記ストーリーラインの１以上は、分岐点で始まり、分岐点で終わる、請求項１～９のいずれか１項に記載の制御システム。
前記ニューラル・ネットワークは、さらに、背景コンテキスト入力副層を含む、請求項１～１０のいずれか１項に記載の制御システム。
前記背景コンテキスト入力副層の１以上のニューロンの活性値は、
視聴者層、年齢、教育水準、社会経済的ステータス、収入水準、社会的および政治的な観点、ユーザ・プロファイル、好き、嫌い、時刻、視聴者のユーザ数、天候、視聴者の位置
のうちの１以上の表現を含む、請求項１１に記載の制御システム。
１以上のユーザの背景コンテキスト情報が
ソーシャル・メディアの投稿、ソーシャル・メディアの使用量、携帯電話の使用量、視聴者調査、検索履歴、カレンダー、システム時計、画像分析および位置情報のソースのうち
の１以上のソースから生まれている、請求項１１または１２に記載の制御システム。
前記選択モジュールは、選択された前記ストーリーラインの１以上を選択するために動作可能であり、前記順序付けモジュールは、前記ニューラル・ネットワークにより処理された、センチメント出力の動的パターン、背景コンテキストおよび環境出力に基づいて、選択された前記ストーリーラインの１以上を順序付けする、請求項１１～１３のいずれか１項に記載の制御システム。
ニューラル・ネットワークを訓練する方法であって、
複数のセンチメント活性値およびセンチメント・ニューロンについて、それぞれ、状況コンテキスト入力副層におけるセンチメント・ニューロンにセンチメント活性値を入力するステップであって、前記状況コンテキスト入力副層は、前記ニューラル・ネットワークの入力層の一部であり、前記センチメント活性値は、センチメント入力パターンを形成する、入力するステップと、
複数の環境活性値および環境ニューロンについて、それぞれ、環境入力副層における環境ニューロンに環境活性値を入力するステップであって、前記環境入力副層は、前記ニューラル・ネットワークの前記入力層の一部であり、前記環境活性値は、環境入力パターンを形成する、入力するステップと、
前記センチメント入力パターンおよび前記環境入力パターンを、前記ニューラル・ネットワークを通して伝播させるステップと、
前記ニューラル・ネットワークの出力層に適用される損失関数を最小化することによって、１以上の重みおよび１以上のバイアスをどれだけ変化するかを決定するステップであって、前記出力層は、それぞれ出力活性値を有する、選択または順序付け出力副層および環境出力副層を有する、決定するステップと、
前記重みおよび前記バイアスを変化させるために後方伝搬するステップと、
前記出力活性値が所望の結果に達するまで前２ステップを繰り返し、訓練を終了させるステップと
を含む、方法。
前記方法は、前記訓練が終了した後、
１以上の選択されたストーリーラインを選択するステップと、
初期ストーリー内で選択された前記ストーリーラインを挿入するステップであって、選択された前記ストーリーラインの開始点は、前記初期ストーリーの開始分岐点で開始され、選択された前記ストーリーラインの終了点は、前記初期ストーリーの終了分岐点で終了される、挿入するステップと、
を含む、請求項１５に記載の方法。
前記環境出力層は、選択された前記ストーリーラインに関連付けられた１以上の環境出力を制御する出力活性値の動的パターンを有する、請求項１６に記載の方法。
選択された前記ストーリーラインを選択するステップおよび選択された前記ストーリーラインを順序付けするステップは、動的センチメント入力パターンによって決定される、請求項１６または１７に記載の方法。
請求項１～１４のいずれか１項に記載の制御システムを制御するための制御実装方法であって、前記方法は、
視聴者と、状況コンテキスト入力副層に接続された１以上のセンチメント出力とをモニタするステップと、
１以上の選択されたストーリーラインを選択するステップと、
選択された前記ストーリーラインを、再生されるストーリーに順序付けするステップと
を含む、方法。
システムを管理するためのコンピュータ・プログラム製品であって、
処理回路によって可読であり、かつ、前記処理回路によって、請求項１５～１９のいずれか１項に記載の方法を実行するための実行命令を格納するコンピュータ可読ストレージ媒体
を含む、コンピュータ・プログラム製品。
コンピュータ可読媒体に格納され、デジタル・コンピュータの内部メモリに読み込み可能なコンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行された場合、請求項１５～１９のいずれか１項に記載の方法を実行するためのソフトウェア・コード部分を含む、プログラム。