JP2011528879A

JP2011528879A - テレビジョンシーケンスを提供するための装置および方法

Info

Publication number: JP2011528879A
Application number: JP2011519058A
Authority: JP
Inventors: ペータードゥンカー; ウーヴェクエヒルト; アンドレーアスハオプト; クリスティアンディットマー; ホルガーグロスマン
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2008-07-22
Filing date: 2009-07-08
Publication date: 2011-11-24
Also published as: KR20110033844A; WO2010009812A3; KR101326897B1; DE102008044635A1; US20110179452A1; US8566880B2; WO2010009812A2; EP2304951A2

Abstract

テレビジョンシーケンス１０４を提供するための装置１００。データベースインタフェース１１０は、検索要求１１３を使用して、少なくとも１つのデータベース２００にアクセスする。検索要求受信器１３０は、データベースインタフェース１１０を制御して、検索要求１１３に対して、データベースインタフェース１１０を介して、データベース２００から、別々の少なくとも音声内容１２２および画像内容１２４を収集する。テレビジョンシーケンス表現モジュール１４０は、別々の音声内容１２２と画像内容１２４とを結合して、音声内容１２２および画像内容１２４に基づいたテレビジョンシーケンス１０４を生成する。出力インタフェース１５０は、テレビジョンシーケンス１０４を、テレビジョンシーケンス分配器３００に出力する。
【選択図】図１

Description

本発明は、テレビジョンシーケンスを提供するための装置および方法、特に、アナログテレビジョン、デジタルテレビジョン、および、インターネットを介したテレビジョン（ＩＰＴＶ＝インターネットプロトコルテレビジョン）のためのサービスと放送シーケンスの自動生成に関する。

現在、様々な相互作用型（双方向）テレビジョンサービスが利用可能である。応用の種類は、様々な分類学によって分類される：回帰チャンネルを有さない局所的に個人的な相互作用型応用（情報サービス）、回帰チャンネルを有する完全に個人的な相互作用型応用（ホームショッピング）、または、大規模相互作用型応用（投票の応用）。例えば、代わりの分類は以下の通りである：テレビジョン放送に属する応用（テレビジョンのクイズ番組と平行したクイズ応用）、テレビジョン放送とは独立した応用（テレビジョン操作サービスのポータルサイト（入り口））、または、テレビジョン放送送信応用（チャット応用などの携帯メッセージ送信応用）。

特に興味深いことは、ノルウェーのテレビジョンのテレビ番組「混乱ＴＶ」などのような、相互作用型放送製作サービスに関する携帯メッセージ送信サービスである。テレビ番組「混乱ＴＶ」は、番組主催者と通信するために、携帯電話を通して直接に皆のテレビ画面に送られた、または、送られているＳＭＳメッセージまたはＭＭＳメッセージを組み込んでいる。ＳＭＳは短いメッセージサービスの略であり、ＭＭＳはマルチメディアメッセージサービスの略である。さらに、ＭＭＳメッセージは、テレビ番組の視聴者を、より強く夢中にするために、テレビ画面に表示される。ＳＭＳ通信およびＭＭＳ通信に基づいた、別の相互作用型テレビジョン放送も認められる。

したがって、相互作用型テレビジョンサービスの新しい高度な（機能アップした）戦略が必要である。それは、共同かつ内容に基づいたフィルタ方法を有する携帯メッセージ送信を利用するものである。

ＷＯ２００２／０３２１４４ＵＳ２００８／１５５６２４ＪＰ２００７／２０９０２３ＪＰ２００７／１４２７２９ＧＢ２４４４２８４

しかしながら、前述のように、従来技術において、いくつかの取り組みが存在するけれども、この要求を部分的にしか正当に扱わない。特許文献１は、画像およびビデオ内容の、内容に基づいた自動生成でない装置および方法が実行されている。特許文献２、特許文献３、特許文献４、および、特許文献５の装置および方法は、内容に基づいた方法を適用しない。むしろ、焦点は、放送内容のシーケンス（順番、並び、配列）を決定する編集者に、内容の推薦を提供することにある。手動修正が可能なシーケンスの自動生成は、仮に必要ならば、実行されない。または、追加の番組情報は、高度な（機能アップした）電子番組ガイド（ＥＰＧ）を使用者に提供するために分析される。その結果、使用者は自分たちで番組を編集する。

それゆえに、本発明の主たる目的は、テレビジョンシーケンス（順番、並び、配列）の自動供給が可能で、かつ、内容に基づいた、テレビジョンシーケンスを提供するための装置および方法を提供することである。

本発明の目的は、請求項１に記載の装置、請求項２２に記載の方法、および請求項２３に記載のコンピュータプログラムによって達成される。

本発明は、テレビジョンシーケンス（順番、並び、配列）の自動供給が、検索用語、メディアサンプル、または、より一般には検索要求（検索用語とメディアサンプルは検索要求の例である）を使用して、少なくとも１つのデータベースにアクセスするデータベースインタフェースによって可能であるという発見に基づいている。さらに、検索要求受信器は、データベースインタフェースを制御するように形成される。データベースから別々に分離された、少なくとも音声内容および画像内容は、データベースインタフェースを介して、検索用語またはメディアサンプルのために収集される。音声内容は、テレビジョンシーケンス表現モジュールの中で、画像内容と結合され、テレビジョンシーケンスを生成する。テレビジョンシーケンスは、音声内容および画像内容に基づいており、出力インタフェースを介して、テレビジョンシーケンス分配器に出力される。

本発明では、例えば、マルチメディアデータを予定表化することによって、簡単な検索用語またはキーワードに基づいたテレビ番組を生成する相互作用型（双方向）テレビジョンサービスについて説明する。マルチメディアデータの予定表化は、語義インデックス化によってキーワードを使用して、質問または収集される。例えば、予定表化は、時間的に個々の内容を接合することに関連する。その結果、テレビジョンシーケンスが得られる。このサービスのプロセスは、以下の３つのステップに細分される。
第１のステップ：相互作用型（双方向）サービスの制御
第２のステップ：マルチメディアデータ収集
第３のステップ：テレビ番組生成

サービスを開始すること（初期開始）は、テレビジョンサービスの管理者によって選択された１連の特別なキーワードを通して引き起こされる。相互作用型（双方向）サービスの制御は、ＳＭＳ、携帯電話、他の可能な回帰チャンネルを通して、テレビの視聴者によって作成される、絶え間なく更新されるキーワード一覧表を使用することによって、可能にされる。さらに、ＭＭＳを通して受信された画像、または、通話、または、受信された視聴者の音声内容は、別のステップに使用される。

キーワードは、主題（テーマ）番組の構成の中の、マルチメディアデータベース（収集システム）の中の要求として使用される。対応する要求は、キーワードに基づいたマルチメディアデータの収集をもたらす。したがって、主題番組は、主題に合致しているマルチメディア材料（画像材料と音声材料）を自動的に編集する。

例えば、データベースまたはデータ源は、内容に基づいた語義記述で高度化（機能アップ）された、音楽、画像またはビデオの内容データベースを含む。内容に基づいた語義記述は、自動分類演算法または自動標語演算法によって得られる。さらに、「フリッカー（Ｆｌｉｃｋｒ）」のような共同写真サイトや、共同知識データベース「ウィキペディア」が、言及されたキーワードについて質問され、画像や文字情報を得る。スピーチから文字への認識システムを適用するとき、新しいキーワードが、話された音声内容に依存して発生される。さらに、視聴者の画像内容と音声内容が使用され、内容に基づいた画像および音声の検索システムの中の追加マルチメディア要素を得る。

第３のステップ（テレビ番組生成）は、最も複雑なものであり、テレビジョンサービスの生成に焦点を当てる。テレビジョンサービスの生成は、内容の表現（準備）だけでなく、マルチメディアデータの予定表化も含む。表現手段確立化、例えば、視覚および聴覚の変遷、もしくは、文字のための設計は、追加情報と共に上書きする。予定表化のための入力材料は、個々のマルチメディア内容に対して責任がある使用者（例えば、彼らはキーワードを提供するからである。）の可能な視聴者識別を有する、画像、ビデオ、音楽または他の音声内容、文字情報、および、メタデータ（保存形式などのデータ本体に関する情報）から成る。内容の可能な表現に対して、初めに、例えば文字情報の文字からスピーチへの転換が要求される。

音楽、ビデオおよび画像の予定表化のために、最初のキーワードが、同時に、同様のキーワードを有するメディア要素を示すために使用される。より多くを要求する取り組みは、全てのマルチメディアデータに対する環境のように、特別な語義概念の、内容に基づいた分類である。個々の要素は、それらの環境分類に従って配置される。さらに、内容に基づいた自動音楽区分化演算法は、歌の繰り返し句部分とスタンザ部分（一定の韻律をもった４行以上からなる詩の単位）を見つけるために使用される。この情報は、歌の個々の区分の中の環境確率を分析するために使用され、適した画像の、より良い適用のためだけでなく、歌の構造を正確に再生する。また、区分情報は、音楽の各繰り返し句の中で、同じ画像を繰り返すために使用される。メディア要素のシーケンスは、説明した手順に基づいて編集される。

次のステップは、正確な予定表化の準備と変遷効果とに焦点が当てられる。大規模な予定表化に対して、ビート（巡回区分）検出のための音声分析演算法が使われ、特定の時間瞬間での画像変遷を位置決めするために、個々のビート回数を見つける。画像変遷効果の種類は、事前に定義された環境輪郭に沿って取り扱われる。穏やかで憂うつな環境領域の変遷は、通常、相互フェード（ゆっくりとしたフェードインおよびフェードアウト）される。攻撃的で幸福な環境領域の変遷は、厳しい遮断（迅速なフェードインおよびフェードアウト）が使用される。内容の表現は、プライバシーを保護するために、画像の中の人間の顔を検出して、事前に定義された方法で、これらの画像を処理する（例えば、そのような画像を取り除く、または、顔の領域を霧で覆う）工程を含む。対照的に、顔の領域が動画の中に明確に出現したり、捕獲物（顔の領域）が拡大されたりする。

番組の表現における最後のステップは、例えば、作動文字情報をビデオの中に入れる。作動文字情報は、例えば、ウィキペディアからの追加情報、または、所有者（例えば、創造的共通免許（ＣｒｅａｔｉｖｅＣｏｍｍｏｎｓライセンス）および属性状態に関する）から得られたマルチメディア要素の使用者名、または、広告を含む。

また、本発明の種々な面が以下のように説明される。

本発明は、放送シーケンスの、自動化されたおよび一部自動化された生成と、テレビジョンおよびＩＰＴＶの内容の、自動化された画像的および聴覚的表現と、を許す方法および装置を含む。

本発明で利用される写真、ビデオ、音声および文字の内容は、例えば、利用可能な情報源の画像／音声／ビデオのサンプルに基づいた、内容に基づいた検索を通して編集される。さらに、写真、ビデオ、音声および文字の内容は、利用可能な情報源（データベース）の中の、検索要求を利用するような見出し語に基づいた検索を通して、編集することが可能である。見出し語に基づいた検索は、例えば、音声材料またはビデオ材料の、内容に基づいた分析化および自動語義インデックス化を含む。

さらに、本発明は、視聴者内容または使用者内容に基づいた特別な音声／ビデオ内容の生成だけでなく、放送シーケンスの適用のための動的制御情報として、（例えば、視聴者または使用者によって、）動的に利用可能にされた内容の使用を含む。使用者または視聴者との相互作用を高めるために、特に、本発明は、使用者の自動登録および自動管理（例えば、以前に言及したように、誰が認められ、何時内容が利用可能になるか）を含む。

上記の、視聴者または使用者によって利用可能にされた内容を介して生成される動的制御情報は別として、例えば、静的制御情報も利用される。例えば、静的制御情報は、初期メディアデータ（音声、画像、ビデオおよび文字情報）、データ源、見出し語、もしくは、登録使用者または登録視聴者の選択された使用者、視聴者、グループを含む。したがって、全ての保存された情報は、（データベースの登録された使用者または名前であるけれども、）静的制御情報として使用される。特定の初期静的制御情報は、さらに、そのほかに、所定のサービスに関連する。その結果、個々の放送特性が創造される。例えば、固定されたラジオ番組は音声材料として定義される。画像内容は、音声材料に対して自動的に編集される。または、定義された画像収集品からの画像だけが使用される。

本発明は、さらに、伝播の全ての形態（例えば、ケーブルまたは衛星を介したデジタルＴＶ、もしくは、インターネットを介したＩＰＴＶ）におけるデジタルテレビジョンのための、そして、実況の形態、および／または、事前に作製された形態における連続したビデオストリーム（ビデオデータストリーム）のためのテレビジョンシーケンスの使用を含む。したがって、本発明は、テレビジョンシーケンスからの合致している組み合わせだけでなく、音声、写真およびビデオシーケンスを創造する可能性も提供する。さらに、合致している組み合わせは、内容に基づいた音声、画像およびビデオの、自動化された分類および検索の方法によって作成される。

さらに、本発明は、ビデオ材料および音声材料の、内容に基づいた時間的区分、並びに、シーケンスを表現すること（例えば、相互メディア配列における変遷を表現すること）のためのこの情報の利用を含む。一例として、特定の音楽（例えば、静かな音楽、または、憂うつな音楽）に対応する画像材料が、利用可能とされる、ということに言及されるべきである。音楽における変化は、画像材料における変化を伴う。

さらに、本発明は、音楽劇の画像内容およびビデオ内容の、内容に基づいた自動配列（この自動配列は、音楽劇の音声ストリーム化内容の、内容に基づいた時間的区分からの情報を使用している）だけでなく、音楽劇の音声内容の、内容に基づいた自動配列（この自動配列は、音楽劇の画像ストリーム化内容の、内容に基づいた時間的区分からの情報を使用している）も含む。

さらに、本発明は、メディアシーケンスの自動化された視覚表現および聴覚表現を含む。メディアシーケンスは、特に、（個々の要素の間の）変遷と相互メディア配列との表現に関連して実行される。

さらに、本発明は、提案された、かつ、生成された放送シーケンスの、後からでもできる手動修正を含む。

さらに、送信シーケンスの作製は、公共的または商業的に利用可能であるだけでなく、局所的に利用可能で、共同的に生成されたデータ源（フリッカー（ＦＬＩＣＫＲ．ＣＯＭ）または百科事典ウィキペディアなど）を使用して、そのような情報だけでなく、ストリーム化に基づいた音声、画像、ビデオおよび文字情報も使用して、視聴者または使用者によって動的に利用可能とされる。

さらに、本発明では、写真、ビデオおよび音声内容が、制御情報の助けで（例えば、特定の領域または国を指定する検索用語によって）検索される、または、編集される。必要ならば、地図イラストに関する送信シーケンスに統合される。

インターネットまたはウィキペディア百科事典から得られた文字内容を、放送内容に統合するために、例えば、文字からスピーチへの生成が実行され、文字情報を音声内容に変換する。対応する文字情報源は、一般的なデータベースまたはインターネットである。

また、既に言及したように、本発明は検索用語の使用を含む。検索用語は、話された、または、歌われた音声内容から自動的に収集され、検索用語に関連した別のメディアデータを、データベースから質問するために利用される。例えば、ラジオのリポーターまたは主催者の音声内容が調べられる。その結果、その音声内容は、画像源または画像データによって対応して補足される。

検索用語は、さらに、語義内容またはメタデータの分類を通して、もしくは、音声認識（スピーチから文字へのモジュール）によって、音声、画像およびビデオ内容から収集される。音声、画像およびビデオ内容は、内容データを含むけれども、分類に利用される。

本発明は、文脈に依存する追加情報をフェードイン、または、演奏することを含む。追加情報は、例えば、広告のフェードインまたは文字情報を含む。土地情報の上記の例に関して、対応する広告情報は、例えば、旅行業者によって、それぞれの領域に送信される。例えば、文字情報は、番組の都市、領域または他の内容に関する事実である。

本発明では、画像内容または動画内容は、合致する方法で、音声内容と共に、配列される、または、結合される。その結果、それらは、同一または同様の環境または類型のような共通特性を有する。これは、視覚内容および聴覚内容（例えば、対応する憂うつな音を伴う日没または日の出の環境）の、内容に基づいた自動分類を通して成される。その結果、連続またはストリーム音声内容に関する画像内容、および／または、ビデオ内容の配列が、自動的かつ内容に基づいた方法で成される。

本発明は、音声内容を、連続する画像内容またはビデオ内容に配列するときの利用を確保して、写真集からの、または、個別または複数のビデオからの写真／ビデオ要約の、内容に基づいた、および、メタデータに基づいた自動用法によって、連続する画像およびビデオストリームの生成を含む。同様に、音声内容を、連続またはストリーム画像内容またはビデオ内容に配列することが、自動的かつ内容に基づいた方法で成される。

例えば、連続した音声ストリームと画像内容の多様性とが、多数の画像内容を、連続する音声ストリームの中にフェードイン（徐々に現出）することによってテレビジョンシーケンスを得るために、収集される。または、逆に、画像シーケンスと音声内容の多様性とが、音声内容の多様性を画像シーケンスにフェードインすることによってテレビジョンシーケンスを得るために、収集される。

さらに、本発明は、文字情報を有する主題（テーマ）番組サービスの生成を含む。例えば、主題は、使用者または視聴者による動的制御情報として、または、静的制御情報の形態で得られた検索用語によって定義される。このようにして設計された主題は、映像データベースから画像を収集するために役立つ。画像は、次に、自動的配列によって音声内容に編集され、音声内容をシーケンスに合致させて配列される。任意に、メディアシーケンスの視覚的および聴覚的表現（特に、相互メディア配列の中の変遷の表現を含む）が実行される。

さらに、本発明は、既に言及したように、画像上の顔および個人を検出するための技法の使用を含み、目標の方法（プライバシーの保護）において、これらの内容を選択する、または、無視する。あるいは、顔の領域を強調する、または、顔の領域を歪める。

したがって、本発明は、ものの上に共通に焦点を当てた状態で示された機能アップ戦略とサービス概念とが、テレビジョン放送を生成するために、最低限の製作と保守努力を要求するという点で、有利である。これは大きなコスト削減をもたらす。

この発明の上述の目的，その他の目的，特徴および利点は、図面を参照して行う以下の発明を実施するための形態の説明から一層明らかとなろう。

テレビジョンシーケンスを提供するための装置を示す概略図である。テレビジョンシーケンスを提供するための別の装置を示す概略ブロック図である。放送シーケンス（テレビジョンシーケンス）の自動生成のためのフローチャートである。視覚的に同様の画像を伴う、内容に基づいた画像質問のための例示的結果を示す写真図である。歌の構造区分の演算法の例示的結果を示す模式図である。相互作用型（双方向）テレビジョンを機能アップするためのサーバー構成を示す概略ブロック図である。演奏一覧表の相互作用型生成を示す概略ブロック図である。主題の音声／画像生成器のためのフローチャートである。

図面に基づいて以下でさらに詳細に本発明について説明する前に、図面の中の同じ要素には、同じまたは同様の符号が提供され、これらの要素の繰り返しの記述を省略するということが、指摘される。

図１はテレビジョンシーケンス１０４を提供するための装置１００の第１の実施形態を示す。装置１００は、検索用語またはメディアサンプル１１３（または、属検索要求またはＢＡＶＴ検索用語）を使用して、少なくとも１つのデータベース２００にアクセスするためのデータベースインタフェース１１０を含む。さらに、装置１００は、データベースインタフェース１１０を制御するために形成された検索要求受信器１３０を含む。検索要求受信器１３０は、要求１２１によって、データベース２００から、検索用語１１３に対して、データベースインタフェース１１０を通して、少なくとも音声内容１２２および音声内容１２２から分離した画像内容１２４を収集する。すなわち、検索用語１１３とは別に、特別な画像材料または音声材料などのメディアサンプルが、要求として、データベース２００に送られる。データベース２００は、応答として、同種材料（例えば、同じ類型の中の画像材料と音声材料）を戻す。さらに、装置１００は、別々の音声内容１２２と画像内容１２４とを結合して、音声内容１２２および画像内容１２４に基づいたテレビジョンシーケンス１０４を生成するためのテレビジョンシーケンス表現モジュール１４０を含む。最後に、装置１００は、テレビジョンシーケンス１０４をテレビジョンシーケンス分配器３００に出力するための出力インタフェース１５０を含む。

検索要求受信器１３０は、任意に、静的制御情報と動的制御情報との両方を含んでいる検索用語を受信するために、数個の入力を含む。さらに、データベース２００は、互いに分離した数個の部品またはデータベースを含む。その結果、音声データ１２２および画像データ１２４は、異なるデータベースから質問（要求）される。したがって、データベースインタフェース１１０は、異なるデータベース２００に質問（要求）１２１を送る。データベースインタフェース１１０の端末は、例えば、インターネットまたは電話網（携帯電話網または固定電話網）とのインタフェースを含む。

図２は、別の任意要素を含んでいる実施形態を示す。データベース２００は、任意に３個のデータ源を含む。第1のデータ源２１０は、公共的および商業的に利用可能な画像／音声／ビデオ／文字データ源（ＢＡＶＴデータ源）である。第２のデータ源２２０は、さらに任意に、音声／ビデオストリーム源を表現する。第３のデータ源２３０は、局所ＢＡＶＴデータ源である。要求１２１は、ここでは、例えば、特別なＢＡＶＴ情報の検索用語を含む。第１のデータ源２１０の応答は、仮に利用可能であるならば、要求されたＢＡＶＴデータを含む。

図２の実施形態では、検索用語１１３は静的制御情報１１３ａと動的制御情報１１３ｂとに細分される。静的制御情報１１３ａは、例えば、初期内容または上演情報を含む。動的制御情報１１３ｂは、例えば、視聴者または使用者によって入力され、ＢＡＶＴ情報（材料）を含み、任意に、ＭＭＳ／ＳＭＳ／電子メール／ウェブ形式によって装置１００に提供される。テレビジョンシーケンス分配器３００は、図２の実施形態においては、最初に、手動修正手段３１０を含む。手動修正手段３１０は、テレビジョンシーケンス１０４を修正テレビジョンシーケンス１０５に変換する。修正テレビジョンシーケンス１０５は、変遷および動画表現手段３２０に順に入力され、そこから放送シーケンス１０６を最終的に生成する。

装置１００は、その結果、自動的にシーケンスおよび表現を生成し、そして、音声、画像およびビデオ内容の分類および検索だけでなく、任意に、内容に基づいた特徴抽出の方法を利用する。

図３は放送シーケンス（テレビジョンシーケンス１０４）の自動生成のための実施形態を示す。その方法は３つの構成要素を含む。第１の構成要素は相互作用型制御である（図１の検索要求受信器１３０がその部分である）。例えば、相互作用型制御の初期状態は、特別な検索用語１１３を入力することによって、管理者によって設定される。次に、最初に管理者によって設定された検索用語１１３は、視聴者または使用者によって、例えば、絶えず変更され、または、拡大される。使用者は、ＳＭＳ、携帯電話、ウェブ形式などで、別の検索用語を、相互作用型制御１３０に供給する。任意に、追加ＢＡＶＴ材料が、例えば、使用者または視聴者によって、相互作用型制御１３０に提供されることも可能である。

次に、相互作用型制御１３０は、データ収集またはデータ収集モジュール（例えば、図１のデータベースインタフェース）１１０を制御する。相互作用型制御１３０は、例えば、要求を、検索用語１１３を使用してデータベース２００に送る。検索用語１１３は、管理者の特定の検索用語と、使用者によって生成された検索用語との両方を含む。要求に対する回答として、データベース２００はＢＡＶＴ材料を提供する。ＢＡＶＴ材料は、例えば、初めに、データ収集モジュール１１０によって中間的に保存される。データ収集モジュール１１０は、スピーチに基づいた検索用語を、スピーチから文字へのモジュール１１４に転送する。スピーチに基づいた検索用語は、例えば、携帯電話を通して使用者によって相互作用型制御１３０に供給される。スピーチから文字へのモジュール１１４は、スピーチに基づいた検索用語を使用して、文字メッセージの形式で追加検索用語を生成し、追加検索用語をデータベース２００に転送する。データベース２００は、順に、これらの追加検索用語に基づいて、追加ＢＡＶＴ材料をデータ収集モジュール１１０に送り返す。

例えば、ＢＡＶＴ材料は、音楽、画像、ビデオ、または、文字情報を含む。ＢＡＶＴ材料は、例えば、内容に関して分類を提供するメタデータによって、順に高度化（機能アップ）される。データベース２００の例は、フリッカー（ＦＬＩＣＫＲ）などの、画像に基づいたデータベース、または、ウィキペディア百科事典などの、文字に基づいたデータベースである。

データ収集に続いて、テレビ番組の生成が、テレビジョンシーケンス表現モジュール１４０の中で実行される。それは、一方では、個々の内容を結合させ、他方では、内容の前処理を実行する。例えば、テレビジョンシーケンス表現モジュール１４０は、異なる画像シーケンスまたは異なる音声シーケンスの間の変遷を確立する。任意に、（ウィキペディア百科事典からのような）文字に基づいたデータのデータ収集は、初めに、文字からスピーチへのモジュール１１２に送信されることも、可能である。文字からスピーチへのモジュール１１２は、文字に基づいたデータ内容から、音声信号を生成する。音声信号は、順に、テレビジョンシーケンス表現モジュール１４０に転送される。

ＢＡＶＴ材料が、テレビジョンシーケンス表現モジュール１４０の中で結合されるとき、例えば、同様の検索用語のために発見されたＢＡＶＴの材料が、時間内に分類されて、連続的に出力される。任意に、メタデータを介して可能である分類を利用して、例えば、所定の内容または環境に従って、ＢＡＶＴ材料を分類することも可能である。音楽の場合、コーラスと詩の分割（区分）が、合致する方法において、画像材料で（コーラスの反復の場合には、画像材料の反復によって）、実行され、機能アップされる。画像内容と音声内容のこの結合は、さらに洗練される。その結果、音声分析が、例えば、回数またはリズムを検出するために、区分の中で実行される。これは、回数またはリズムに対応している画像をフェードインまたはフェードアウトすることを可能にする。

異なるＢＡＶＴデータの間の変遷が、環境プロフィール（輪郭）に対応するために実行される。その結果、円滑な変遷（画像の遅いフェードインとフェードアウト）が、静かな環境の場合に選択され、厳しい変遷が、攻撃的環境の場合に選択される。最終的に、テレビジョンシーケンス表現モジュール１４０は、例えば、人間の顔を認知できなくするために、人間の顔の処理を実行する。その結果、プライバシーが保護されたままで残る。最終段階として、文字情報は任意にビデオに合わされる。例えば、文字情報は、対応する材料の所有者の名前、または、広告材料、または、（例えば、ウィキペディアからの）別の情報材料を含む。

データ源は２つのグループに細分される。データ源の第１のグループは、現在の番組を制御するために視聴者によって提供されたマルチメディアデータである。この情報は、画像、文字メッセージ、携帯電話を通して送られた音声メッセージ、または、利用可能な代替の帰路チャンネルである。マルチメディア要素は、テレビ番組の一部として、または、以下で説明された類似の検索手順の中の種子メディア項目として、直接に使用される。データ源の第２のグループは、フリッカー、ウィキペディアまたはブリップテレビ（ｂｌｉｐ．ｔｖ）のような、インターネットプラットホーム（基礎構成）からの使用者が生成したデータを統合し、公的にアクセス可能なマルチメディア情報の巨大な帯域幅を提供することを意味する。

例えば、共同的フィルタ方法は、使用者の多様性の相互作用型フィードバックを通して、テレビの内容推薦を機能アップするために適用される。この理由のため、仮に、相互作用型テレビジョンサービスの使用者が監視されるならば、例えば、テレビジョンサービスへの入力の種類に関して、有利である。その結果、使用者プロフィール（輪郭）が確立される。現在の相互作用型テレビジョンサービスに参加している使用者プロフィールが、最も関連しているものを取り除くために比較される。

画像分析の分野では、２つの基礎的取り組みが関連する。第１の取り組みは、内容に基づいた画像検索（ＣＢＩＲ）である。画像サンプルは、画像データベースに対する要求として使用される。従って、同様の画像が、基本的特徴（色ヒストグラムまたは空間的周波数情報など）に基づいて戻される。

図４ａは、サンプル画像（例えば、１２４ａ）を使用した、データベースの中の、内容に基づいた画像質問のためのＣＢＩＲ演算法の典型的な結果を示す。結果として、例えば、データベース２００は、５つの画像１２４ａ，１２４ｂ，１２４ｃ，１２４ｄ，１２４ｅ、すなわち、視覚的に同様の動機（様々な日没）を示している画像１２４を提供する。従って、視覚的に同様の画像が、対応する音楽環境（静か、または、憂うつな）に視覚的に添えられるために使用される。音楽がむしろ静かであるか、または、攻撃的であるかが、例えば、（区分の一部として、）時間／リズムの試験に基づいて発見される。

第２の取り組みは画像内容の分類に基づいている。この取り組みは、様々なパターン認識と分類技法（例えば、自然の情景分類または対象物認識）とを結合する。結果は、全体の画像、例えば、風景、都市、人々、画像の部分の記述（例えば、草原、森林、海辺、海洋、コンクリート対象物についての特定の意見、車、馬、または、エッフェル塔）の語義記述から成る。

語義音声分析は、高度データベース検索または別の処理を許す、記述的メタデータ印付けを有するデジタル化された音声録音の高度化（機能アップ）について言及する。近年、音声のメタデータ記述は、カタログ指向の分類によって殆んど与えられる。都合が悪いことに、事前に定義された種類に従うこの印付けは、煩雑で、手間がかかる。内容に基づいたメタデータの自動生成は、費用効率が良く、スケーラブルな（負荷の増大に応じて機能を柔軟に向上できる）印付けを約束し、現実に近い応用のために、強健で効率の良い結果を提供する。キーワード検索に基づいた音声再生に関して、音楽の一部門の類型と環境は、最も興味ある特性である。使用者調査において決定された、最も認められた音楽スタイルと環境特性とは、データ再生および統計方法を使用して、監視されたパターン認識システムの中で、自動的に分類される。速度、時間およびビート体系などの他の役に立つ特性は、信頼できる方法で決定される。時間に関連した情報の分析のための演算法が、付随する音楽に沿って、画像シーケンスの自動生成のために使用される。さらに、歌の構造区分は、歌の中の類型または環境の変化を考慮するための重要な前提条件を表す。

図４ｂは、歌の構造区分の結果を示す。仮に、区域が繰り返し句（コーラス）として特定されるならば、区域は符号Ｃを担持する。要するに、９個の区域１２２ａ〜１２２ｉが図４ｂに示されている。２番目の区域１２２ｂ、４番目の区域１２２ｄ、および、８番目の区域１２２ｈが、繰り返し句として特定されている。すなわち、残っている区域、１番目の区域１２２ａ、３番目の区域１２２ｃ、５番目〜７番目の区域１２２ｅ〜１２２ｇ、および、９番目の区域１２２ｉは繰り返し句を含まない。しかしながら、これらの区域は、リズムに対応して別の分類を含む。例えば、リズムに関する上記の分類が、区域の長さを分析することによって行われる。例えば、より長い部分は、かなり静かな音楽を示す。

どんな語義印付けも利用可能でないという場合、ストリーム（テレビジョンシーケンス１０４）の中に追加音楽内容を埋め込む効率の良い方法は、同様の音楽のための、内容に基づいた音楽要求である。要求された歌と、より大きい歌のカタログと、の間の類似関係の決定は、関連演奏一覧表を提供する。システムが、関連性に関するフィードバック（関連フィードバック）の使用者の選択および統合をモデル化することを通して拡張される間、推薦の品質は大きく向上する。例えば、フィードバックは、そのような演奏一覧表を連続して適用するために使用される。

通話（例えば、携帯電話の通話）を介した、内容に基づいた音楽識別の応用は、例えば、相互作用の別の可能性を申し出る。携帯電話はスピーカの近くに保持される。

また、単なる画像分析または単なる音声分析に加えて、マルチモード分析が実行される。マルチモード分析、または、包括的モード分析の工程は、聴覚メディアおよび視覚メディアを含む。典型的なマルチモード分析応用は、視覚化のために写真を使用している音楽演奏家である。モードの組み合わせ局面は、音楽および画像環境または感情的効果である。また、音楽の視覚化は使用者試験で評価され、利用者の知覚を測定する。感情に基づいた音楽と写真の組み合わせは、従来のメディアプレーヤー、および／または、無作為の写真を有するスライド番組による視覚化と比較される。使用者試験は、環境に基づいた音楽と写真の組み合わせの、強烈な使用者経験と、より強い承認と、を明らかにする。この理由のため、テレビジョン番組の製作に関するマルチメディア要素の包括的モード応用が適用されるべきである。包括的モード応用は、個別に音声および画像データを処理する代わりに、試験使用者経験を伴う。

相互作用型（双方向）テレビジョンサービスの高度化（機能アップ）は、デジタルテレビジョン再生環境の中のサーバ構成要素を発展させることによって実現される。構造物の核は、コアモジュール（例えば、ＭＰＥＧ−２伝送ストリーム回線多重化装置（マルチプレクサ）、画像符号器、および、対象物回転式（コンベア）生成手段）の間のストリーム化指向のデータ交換である。さらに、内容、予定表化および管理サーバは、全体のシステムと構成要素間の相互作用とを制御する。

図５は、例えば、検索要求受信器１３０が４個のモジュールを含み、テレビジョンシーケンス表現モジュール１４０が２個の副モジュールを含む、別の実施形態を示す。検索要求受信器１３０は、メッセージ入力モジュール１３２、使用者管理モジュール１３４、登録使用者のためのフィルタモジュール１３６、および、メディア収集モジュール１３８を含む。テレビジョンシーケンス表現モジュール１４０は、副モジュールとして、初めに、内容に基づいたメディア分析モジュール１４２と、メディア配列および準備モジュール（または、メディア処理モジュール）１４４と、を含む。例えば、メディア処理は、予定表化（時間計画化または結合化）および前処理化を含む。さらに、テレビジョンシーケンス分配器３００は、デジタルＴＶビデオ符号器３３０とデジタルＴＶマルチプレクサ３４０とを含む。

したがって、使用者は、メッセージ入力モジュール１３２を介して、装置１００にメッセージを送ることができる。メッセージは、例えば、ＳＭＳ、ＭＭＳ、電子メール、または、ウェブ形式の手段によって送られる。例えば、メッセージは検索用語１１３を含む。次に、メッセージは、メディア収集モジュール１３８に送られる。同時に、使用者管理モジュール１３４は、送付者に関して入力メッセージを分析し、例えば、メッセージが登録使用者から発生したか否かを決定する。任意に、フィルタモジュール１３６は、メッセージの使用者または送付者が、登録使用者であるか否かに従って、メッセージを重み付けする。例えば、検索用語１１３は、メディア収集モジュール１３８によって、メディアデータの収集を実行するために、直接に登録使用者のために使用される。例えば、メディア収集のために検索用語１１３が受け入れられるまで、最低数の使用者が、未登録使用者に対して要求される。あるいはまた、未登録使用者は、投票に参加するだけであり、未登録使用者自身の検索用語１１３を生成しない。

メディアデータが、メディア収集モジュール１３８によってデータベースから質問（要求）された後（図５に図示せず）、メディアデータの内容に関する上記試験が、内容に基づいたメディア分析モジュール１４２の中で行われる。メディアデータは、画像内容１２４と音声内容１２２との両方を含む。放送シーケンスを生成するためのモジュール（メディア処理モジュール）１４４において、音声データと画像データの両方に対応する適用、特に、様々なデータの間の対応する変遷の表現が行われる。その結果、その時得られたテレビジョンシーケンス１０４は、デジタルＴＶ符号器３３０に入力される。デジタルＴＶ符号器３３０は、相互作用型（双方向）テレビジョン番組を生成する。次に、相互作用型テレビジョン番組は、デジタルＴＶマルチプレクサ３４０に入力される。このようにして得られた相互作用型テレビジョン番組は、他のソース（例えば、テレビジョン番組１〜ｎ）からの他のテレビジョン番組に結合して、例えば、デジタルＴＶ網（例えば、ケーブル）に伝送される。

したがって、以下にまとめられるように、メディア収集、マルチメディア分析、および、共同フィルタリングのための特別なモジュールが、テレビジョン番組またはテレビジョンサービスの高度化のために統合される。表現された処理の鎖は、携帯電話、または、電子メールのような他の帰路チャンネルを介して伝えられた使用者メッセージの取り扱いを含む相互作用型テレビジョン生成サービスのための抽象的な手順を示す。メッセージは、上で説明したように、フィルターにかけられる。その結果、登録使用者は、共同フィルタモジュールを始動する、および／または、影響を及ぼす。共同フィルタモジュールは、他の登録使用者に関する包括的興味を検索する。次のステップでは、仮に、メディア収集が、選択されたサービスのために必要であるならば、メディア収集が実行される。その後、内容に基づいたメディア分析モジュール１４２は、語義インデックスリストおよび類似性に関して、音声、画像およびビデオデータを処理する。高度化鎖の最後のモジュールは、内容に基づいた分析法を使用して、マルチメディア要素の予定表化と処理を実行する。手順は、応用の種類によって異なる。

相互作用型テレビジョンサービスのための高度化（機能アップ）戦略は、以下の通り説明される。事前に定義されたシステム構造と、内容に基づいた共同フィルタ方法とに基づいて、相互作用サービスを高度化する（テレビジョンシーケンス１０４を生成する）ための多くの戦略が可能である。

例えば、使用者からの文字メッセージは、キーワードごとに分析され、マルチメディアデータベースの中の合致するマルチメディア要素を発見する。合致するマルチメディア要素は、この内容を放送に統合するために、自動的に生成された意見、または、使用者が生成した意見と共に提供される。

また、使用者からのマルチメディアメッセージは、テレビジョンシーケンスのための同様のマルチメディア要素を得るために、要求として、内容検索システム（質問システム、または、いわゆる情報検索システム）の中で使用される。

さらに、使用者からの音声内容またはスピーチが、キーワード、または、合致する音楽分野のために分析される。例えば、キーワードと曲名は、マルチメディア要素について質問するために使用される。

例えば、使用者グループは、遠隔制御された方法の中で知的演奏一覧表を生成して、制御された方法の中で、関連性に関する使用者フィードバックに基づいて、ビデオクリップまたは音楽を制御する。

このようにして集められたメディア（ＢＡＶＴ材料）は、使用者／視聴者に最適な経験を提供するために、包括的なモード方法で自動的に予定表化され、表現される。

以下に説明された高度化戦略に従って、いくつかの具体的なサービスシナリオが可能である。例によって、サービス：知的演奏一覧表生成器（ＩＰＧ）および主題放送生成器（ＴＢＧ）が、詳細に説明される。

図６ａは演奏一覧表とその適用を生成するためのフローチャートを示す。最初のステップ６１０では、初めに、歌（例えば演奏一覧表６２０における開始値を代表する）が、使用者（例えば、登録使用者）によってファイルされる、または、提供される。この歌に基づいて、装置が、例えば、同様の曲名の演奏一覧表を確立する。次に、演奏一覧表は演奏される。別のステップ６３０では、他の使用者によるフィードバックが存在する。他の使用者は、例えば、投票を通して、音響に対応して曲名を評定し、演奏一覧表における順位を製作する。最も悪いと評定された曲名を絶えず置き換えることによって、演奏一覧表は連続して改良され、適合される。

ＩＰＧサービスは、音楽の例における動的な演奏一覧表生成のための相互作用（双方向）サービスについて説明する。また、基本概念は、スライド番組サービス、または、組み合わせにおける音楽／スライド番組サービスとして、画像分野にも適用される。

図式的に示されたＩＰＧサービスの概念は、以下のより具体的用語に翻訳される。サービスを始めるために、サービスの使用者または管理者は、いわゆる種子の歌を設定する。種子の歌は、音楽収集演算法によって使用される。音楽収集演算法は、音楽データベースを検索し、同様の歌の最初の演奏一覧表を得る。サービスの更なる工程では、演奏一覧表は、より長くなり、変化する。そのような歌の提供（提案）は、文字メッセージ、または、携帯電話音楽識別を介して、曲名に基づいて取り扱われる。特定された歌はＩＰＧに提供される。サービスの初期化に続いて、使用者は現在演奏されている歌についてフィードバックする（例えば、投票する）。関連フィードバック演算法は、連続した使用者フィードバックから利益を得て、演奏一覧表を適用する。大量拒絶の最悪の場合、現在演奏されている歌は停止され、代りの歌が選択される。投票の結果は、使用者経験を拡げるために画面に表示される。投票の取り組みとは別に、追加歌が、数個の種子の歌と演奏一覧表集約演算法とに基づいて、ＩＰＧの、より直接的な制御の目的のために提出される。この方法は、複数人競技ゲームに類似しているサービス：「ＩＰＧが貴方の類型を演奏するまで、特別な音楽類型の様々な歌を見つけて、提出する」サービスに広げられる。それに代わるものとして、共同フィルタモジュールは、登録使用者の既存の音楽の好みを含むことを可能にする。

このサービスの音楽／スライド番組バージョンに関して、音声内容と視覚内容とを合併するための加算技術が、例えば、環境分類に適用される。さらに、音声ビート分析が、正確に音楽ビートで画像を変えるために適用される。歌の構造の区分は、歌の各繰り返し句の中で同じ画像を繰り返すために適用される。

原則として、投票の取り組みは大規模相互作用に対して想像できる。一方、提案取り組み（すなわち、各使用者が自分たちで材料を提供する）は、限られた数の使用者に使用されるべきである。

図６ｂは、番組を自動的に生成する主題（テーマ）ＡＶ生成器（ＴＢＧ）のためのフローチャートを示す。使用者は、第１のステップ７１０で、例えば、検索用語を提出する。第２のステップ７２０で、検索用語が、データベースに質問するために使用される。マルチメディアデータが、第３のステップ７３０で収集される。知識に基づいたデータベースは、第４のステップ７４０で、任意に質問される。その結果、知識に基づいたデータベース質問は、文字を提供する。文字は、第６のステップ７６０で、スピーチに変換され、メディア的に結合するために利用可能である。第５のステップ７５０で、一方では、マルチメディアデータがスピーチに変換された文字情報に結合され、一緒になる。変遷は、第７のステップ７７０で、対応して適用される。第８のステップ７８０で、マルチメディアデータは、関連使用者情報データと共に提供される。このようにして得られた材料は、最終的に、最後のステップ７９０で出力される、および／または、テレビジョンシーケンス分配器３００に利用可能とされる。

その結果、ＴＢＧサービスは、相互作用型（双方向）テレビジョンサービスを説明する。双方向テレビジョンサービスは、キーワード探索に基づいて編集された、または、構成された利用可能なマルチメディア内容に基づいたテレビジョン番組に基づく。双方向テレビジョンサービスは、以下の通り詳細に説明される。初めは、特別な話題、例えば、「ニュージーランド」のキーワードが提供される。初期のキーワードは、文字メッセージを通して、事前登録使用者またはサービス管理者によって設定される。これらのキーワードの包含を通して、マルチメディア検索が、ＴＢＧのための初期内容を収集するために、様々なマルチメディアプラットホーム（例えば、「Ｆｌｉｃｋｒ．ｃｏｍ」）上で実行される。マルチメディア内容は別として、ウィキペディアなどの知識データベースは、文字内容のために検索される文字内容は、文字から音声への合成を有する音声内容として使用される。追加音楽内容は、例えば、質問された画像の環境分類と、印付けされた、または、語義の示された音楽データベースの中の環境に基づいた検索と、に基づいて選択される。

質問されて生成されたマルチメディアデータを、結合して予定表化することによって、主題放送は、可能な実施料を除いて、製作費なしで生成される。最終段階は、画像の間などの変遷効果を工夫することに焦点が当てられる。この理由のため、事前に定義された変遷と同様に、上で説明された環境分類が、円滑な相互フェード（例えば、静かで憂うつ）に適した環境プロファイルの中で用いられる。

初期質問内容が送られている間、使用者は、「ニュージーランド」の例に対して、主題に合致している追加キーワードを有する文字メッセージ、例えば、「ミルフォードサウンド、クイーンズ町、アベル・タスマン」を送る。相互作用的に提供されたこれらのキーワードは、動的に統合される追加マルチメディア内容と共に、元の主題放送を高度化（機能アップ）する。使用者がＴＢＧサービスに参加するよう奨励するために、使用者のあだ名または画像が、使用者が責任を有する内容と一緒に、番組の中に示される。

その結果、本発明に係る実施形態は、特に、地元ＴＶ番組を提供する地元ＴＶケーブル網またはケーブル主局で使用されるＴＶ放送内容の自動生成に、適用可能である。様々な範囲のテレビジョンの提供が、短時間内に限られた財源で利用可能にされるべきであるけれども、内容維持のための財源が殆んど利用できない分野の応用は、ここでは特別の関心がある。提供されたテレビジョン番組は、例えば、娯楽のために使用されるけれども、情報目的にも使用される。

地元ＴＶの提供のために、実施形態は、地元の興味があって使用者生成内容である内容で、未使用の放送時間を満たす可能性を開ける。例えば、地元の出来事の写真捕獲、および、地元の演奏家による音楽、または、地方の放送局の音楽に合致している画像材料が、自動化方法によって、環境に対応して配列される。

別の応用は、携帯テレビジョンのために内容を作製するとき、結果として生じる。例えば、現在のところ、ラジオ番組もテレビジョンとして放送される。単に、ＣＤカバーの画像はビデオ画像で表示される。ここで、仮に必要ならば、画像貯蔵庫（リズムおよび環境に合致しているデータベース）からの画像が、音楽に伴って自動的に表示される。内容の変化と自動選択とを通して、大きな価値の増加が、殆んど努力しないで達成される。実施形態は、以前に言及した手段の助けによって、地元の共同体を助成する可能性を含む。

例えば、この領域への編入は、携帯テレビジョンの、いわゆる再生の内容管理システムを開発してファイルするモジュールとして、実現される。

実施形態は、視聴者が必ずしもビデオストリームの生成に影響を与えなくても（相互作用的でなくても）、ビデオストリームを生成すること、および、多数の使用者／視聴者にビデオストリームの伝送を保障すること、を含む。例えば、これは、限られた領域（例えば、都市またはケーブルＴＶ業者の適用領域）のために成される。

最も成功した相互作用型ＴＶ応用は、ＳＭＳチャットなどの携帯メッセージサービスを利用するテレビジョンサービスを含む。さらに、実施形態は、共同的かつ内容に基づいたフィルタ方法を使用して、携帯メッセージサービスの機能アップのための新しい取り組みを提供する。一例として、相互作用型ＴＶサービスをデジタルＴＶ網に統合するために使用される内容と再生サーバが開示される。さらに、低いサービス作製費で新しいサービスの機会を提供するだけでなく、携帯メッセージサービスの使用者経験も機能アップできる、発展した内容に基づいた分析演算法が説明される。新しい取り組みは、知的な内容予定表化および表現だけでなく、マルチメディア内容の自動収集にも焦点を当てられる。

まとめると、本実施形態は、以下のように特徴付けられる。本実施形態は、共同的かつ内容に基づいたフィルタ方法を有する、相互作用型テレビジョンサービスを機能アップすることを含む。共同的かつ内容に基づいたフィルタ方法を含む携帯メッセージサービスを機能アップするための取り組みが説明される。内容と再生システム構造物が説明される。内容に基づいた分析演算法と、機能アップ構成要素の中の前記分析演算法の潜在的採用が開示される。２つのサービス概念が、相互作用型テレビ番組の生成プロセスにおいて、内容に基づいた演算法の適用を説明するために詳細に記載される。結果をまとめると、実現されたことは、模範的な相互作用型サービスの基本体系である。

したがって、実施形態は、特に、相互作用型テレビジョンサービスを機能アップするだけでなく、共同的かつ内容に基づいたフィルタリングについても説明する。

特に、条件に依存して、本発明に従った体系は、ソフトウェアにおいても実行される、ということが指摘される。実行は、追加記憶媒体、特に、プログラム可能なコンピュータシステムと協働できる、電子的に読み取り可能な制御信号を有するディスクまたはＣＤ上でなされる。その結果、対応する方法が実行される。一般に、本発明は、コンピュータプログラム製品がコンピュータ上で実行されるとき、本発明に従って方法を実行するための、機械的に読み取り可能な担持体上に保存されたプログラムコードを有するコンピュータプログラム製品から成る。言い換えれば、本発明は、コンピュータプログラムがコンピュータ上で実行されるとき、本発明に係る方法を実行するためのプログラムコードを有するコンピュータプログラムとして実現される。

Claims

テレビジョンシーケンス（１０４）を提供するための装置（１００）であって、
検索要求（１１３）を使用して、少なくとも１つのデータベース（２００）にアクセスするためのデータベースインタフェース（１１０）と、
前記データベースインタフェース（１１０）を制御して、前記検索要求（１１３）に対して、前記データベースインタフェース（１１０）を介して、前記データベース（２００）から、少なくとも音声内容（１２２）および画像内容（１２４）を別々に収集するように形成された検索要求受信器（１３０）と、
別々の前記音声内容（１２２）と前記画像内容（１２４）とを結合して、前記音声内容（１２２）および前記画像内容（１２４）に基づいた前記テレビジョンシーケンス（１０４）を生成するためのテレビジョンシーケンス表現モジュール（１４０）と、
前記テレビジョンシーケンス（１０４）を、テレビジョンシーケンス分配器（３００）に出力するための出力インタフェース（１５０）と、
を備えたこと、を特徴とする、装置。
前記データベース（２００）は、互いに空間的に分離された第１のデータ源および第２のデータ源を含み、前記データベースインタフェース（１１０）は、前記第１のデータ源から前記音声内容（１２２）について質問し、かつ、前記第２のデータ源から前記画像内容（１２４）について質問するように形成されていること、を特徴とする、請求項１に記載の装置。
前記データベースインタフェース（１１０）は、さらに文字に基づいたデータベースにアクセスして、前記検索要求（１１３）に応答した文字情報について質問するように形成されていること、を特徴とする、請求項１または請求項２に記載の装置。
前記文字情報を追加音声内容に変換して、前記追加音声内容を前記テレビジョンシーケンス表現モジュール（１４０）に転送するように形成されている、文字からスピーチへのモジュール（１１２）を備えていること、を特徴とする、請求項３に記載の装置。
前記データベースインタフェース（１１０）は、前記音声内容（１２２）から別の検索用語を決定するように形成されていること、を特徴とする、請求項１〜請求項４のいずれかに記載の装置。
前記検索要求受信器（１３０）は、前記データベースインタフェース（１１０）を介して別の音声内容および別の画像内容を収集するように形成され、テレビジョンシーケンス表現モジュール（１４０）は、前記音声内容（１２２）、前記画像内容（１２４）、前記別の音声内容、および、前記別の画像内容を、前記テレビジョンシーケンス（１０４）に結合するように形成されていること、を特徴とする、請求項１〜請求項５のいずれかに記載の装置。
前記テレビジョンシーケンス表現モジュール（１４０）は、前記テレビジョンシーケンス（１０４）を生成するように形成され、その結果、前記音声内容（１２２）から前記別の音声内容への変化が、前記画像内容（１２４）から前記別の画像内容への変化に、一時的に合致すること、を特徴とする、請求項６に記載の装置。
前記音声内容（１２２）は、小節、もしくは、始めと終わりとを有する繰り返し句を含み、前記テレビジョンシーケンス表現モジュール（１４０）は、前記画像内容（１２４）から、前記小節、もしくは、前記繰り返し句の前記始めまたは前記終わりを有する前記別の画像内容への変化に、合致するように形成されていること、を特徴とする、請求項６または請求項７に記載の装置。
前記音声内容（１２２）および前記画像内容（１２４）は、前記音声内容（１２２）および前記画像内容（１２４）の内容に関して分類され、前記検索要求受信器（１３０）は、前記分類に依存して、前記別の音声内容および前記別の画像内容について質問するように形成されていること、を特徴とする、請求項６〜請求項８のいずれかに記載の装置。
前記検索要求（１１３）は静的制御情報（１１３ａ）もしくは動的制御情報（１１３ｂ）を含み、前記動的制御情報（１１３ｂ）は前記テレビジョンシーケンス（１０４）に依存していること、を特徴とする、請求項１〜請求項９のいずれかに記載の装置。
前記テレビジョンシーケンス分配器（３００）は、テレビジョンシーケンス（１０４）を使用者に伝送するように形成され、前記検索要求受信器（１３０）は、使用者からのメッセージ形式の動的制御情報（１１３ｂ）を得るように形成されていること、を特徴とする、請求項１０に記載の装置。
使用者管理モジュール（１３４）をさらに備え、前記使用者管理モジュール（１３４）は、特定の使用者を登録するように形成され、前記検索要求受信器（１３０）は、前記特定の使用者からの動的制御情報（１１３ｂ）を、前記使用者からの動的制御情報（１１３ｂ）と異なって処理するように形成されていること、を特徴とする、請求項１０または請求項１１に記載の装置。
前記検索要求受信器（１３０）は、連続した音声ストリームと画像内容の多様性とを収集するように形成され、前記テレビジョンシーケンス表現モジュール（１４０）は、前記画像内容の多様性を前記連続した音声ストリームの中にフェードインすることによって、前記テレビジョンシーケンス（１０４）を得るように形成されていること、を特徴とする、請求項１〜請求項１２のいずれかに記載の装置。
前記検索要求受信器（１３０）は、画像シーケンスと音声内容の多様性とを収集するように形成され、前記テレビジョンシーケンス表現モジュール（１４０）は、前記音声内容の多様性を前記画像シーケンスの中にフェードインすることによって、前記テレビジョンシーケンス（１０４）を得るように形成されていること、を特徴とする、請求項１〜請求項１２のいずれかに記載の装置。
音声内容または画像内容の手動修正手段（３１０）、もしくは、音声内容と画像内容との間の表現変遷手段（３２０）をさらに備えていること、を特徴とする、請求項６〜請求項１４のいずれかに記載の装置。
前記音声内容（１２２）もしくは前記画像内容（１２４）は内容データを含み、
前記音声内容（１２２）もしくは前記画像内容（１２４）を保存し、かつ、前記内容データに対応して、前記音声内容（１２２）もしくは前記画像内容（１２４）を分類するための記憶部をさらに備えていること、
を特徴とする、請求項１〜請求項１５のいずれかに記載の装置。
前記画像内容（１２４）の前記音声内容（１２２）は、内容データを含み、前記テレビジョンシーケンス表現モジュール（１４０）は、前記内容データに基づいた文字情報によって、前記音声内容（１２２）もしくは前記画像内容（１２４）を機能アップするように形成されていること、を特徴とする、請求項１〜請求項１６のいずれかに記載の装置。
前記内容データは、前記音声内容（１２２）もしくは前記画像内容（１２４）の類型を指定し、前記テレビジョンシーケンス表現モジュール（１４０）は、前記類型に対応して、前記音声内容（１２２）と前記画像内容（１２４）の結合を実行するように形成されていること、を特徴とする、請求項１６または請求項１７に記載の装置。
前記テレビジョンシーケンス表現モジュール（１４０）は、類型に依存して、前記画像内容（１２４）をフェードインもしくはフェードアウトするように形成されていること、を特徴とする、請求項１８に記載の装置。
前記テレビジョンシーケンス表現モジュール（１４０）は、文脈に依存する追加情報を、前記テレビジョンシーケンス（１０４）の中にフェードインするように形成されていること、を特徴とする、請求項１〜請求項１９のいずれかに記載の装置。
前記テレビジョンシーケンス表現モジュール（１４０）は、前記画像内容（１２４）から人間の顔を認識して、認識された人間の顔を歪めるように形成されていること、を特徴とする、請求項１〜請求項２０のいずれかに記載の装置。
テレビジョンシーケンス（１０４）を提供するための方法であって、
検索要求（１１３）を使用して、データベースインタフェース（１１０）によってデータベース（２００）にアクセスするステップと、
検索要求受信器（１３０）によって前記データベースインタフェース（１１０）を制御し、前記検索要求（１１３）に対して、前記データベースインタフェース（１１０）を介して、前記データベース（２００）から、少なくとも音声内容（１２２）および画像内容（１２４）を別々に収集するステップと、
テレビジョンシーケンス表現モジュール（１４０）によって、別々の前記音声内容（１２２）と前記画像内容（１２４）とを結合して、前記音声内容（１２２）および前記画像内容（１２４）に基づいた前記テレビジョンシーケンス（１０４）を生成するステップと、
出力インタフェース（１５０）によって、前記テレビジョンシーケンス（１０４）を、テレビジョンシーケンス分配器（３００）に出力するステップと、
を備えたこと、を特徴とする、方法。
コンピュータが稼動するとき、請求項２２に記載の方法を実行すること、を特徴とする、コンピュータプログラム。