JP2005107529A

JP2005107529A - 時間ベースメディアのための印刷可能表現

Info

Publication number: JP2005107529A
Application number: JP2004278356A
Authority: JP
Inventors: Jonathan J Hull; ジェーハルジョナサン; Jamey Graham; グラハムジャメイ; Peter E Hart; イーハートピーター
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2003-09-25
Filing date: 2004-09-24
Publication date: 2005-04-21

Abstract

【課題】本発明のシステムは、ユーザが時間ベースのメディアの表現を生成することを可能にする。
【解決手段】本発明のシステムは、メディアコンテンツから特徴を抽出するための特徴抽出モジュールを含む。例えば、特徴抽出モジュールは音楽演奏におけるソロを検出することができる、又は、音楽、拍手のある発話等を検出することができる。フォーマット化モジュールはシステムにより生成されたメディア表現をフォーマットする。フォーマット化モジュールは又、表現に特徴抽出情報を適用し、表現仕様に従って表現をフォーマットする。更に、システムは、特徴抽出情報と表現仕様とに基づいて、メディア表現を生成する拡張出力装置を含むことができる。本発明の方法は、メディアコンテンツから特徴を抽出する段階と、表現フォーマットを指定するデータ構造又は仕様に基づいて及び抽出された特徴を用いて生成されるメディア表現をフォーマット化する。この方法は又、フォーマット化の結果に基づいて、メディア表現を生成する段階を含むことができる。
【選択図】図１

Description

本発明は、時間ベースのメディアに対する印刷可能表現を生成するためのシステム及び方法に関する。

従来のプリンタは、種々の異なるフォーマットの文書を生成するために且つ異なるタイプのコンテンツに基づいて、現在、用いられている。しかしながら、従来のプリンタがテキストの画像及び／又はピクチャを生成することができる一方、従来のプリンタには、マルチメディアコンテンツの表現を効果的に生成するための能力において限界がある。従来のプリンタは、紙のような固定的媒体に印刷し、それ故、従来のプリンタは時間ベースのメディアの要素を効果的に捕捉することができない。

しかし、今日、一般に、時間ベースのメディアコンテンツを容易に調べるための能力に対する要求が存在している。時間ベースのメディアコンテンツにおける所望の特徴を検索するためには、コンテンツそのものを実際に検索する必要があり、所望の情報を見つけるために走り読みをする必要がある。例えば、ユーザは、特定のトピックスに関するコンテンツを見つけるために又は特定の話者による議論を見つけるためにラジオのトークショーの音声記録をマニュアル操作で走り聴きする必要がある。このような従来のプリンタにおける制約のために、メディアコンテンツから興味のある特定の特徴を特定し且つ抽出するように、ユーザが長いメディアセグメントを通して検索することができる簡単な方法は、現在、存在しない。更に、メディアに関する有用な情報を提供するメディアの容易に書き込み可能な表現を、ユーザが生成できる方法は存在しない。

更に、メディアコンテンツは、一般に、デジタル方式のみにおいて利用可能である。しかしながら、多くのユーザにとって、デジタルフォーマットは、どれが見るべき情報であるかの点で最適なフォーマットではない。デジタル方式のメディア情報を見ることが一部のユーザにとって適切である一方、多くのユーザは、情報が紙媒体に印刷されるとき、情報をより容易に理解することができることに気がつく。それにも拘らず、ユーザがメディアコンテンツを調べてそれにアクセスすることができる時間ベースのメディアについて紙ベースの表現を生成するための機構で現在利用可能なものは存在しない。

従って、必要とされるものは、紙ベースとすることができ且つマルチメディアコンテンツにおいて規定された特徴を抽出するための能力をユーザに提供することができる時間ベースのメディアの表現を生成するためのシステム及び方法である。

本発明は、時間ベースのメディアの表現を生成するためのシステム及び方法を用いて、先行技術の欠落点及び制約点を克服する。本発明のシステムは、メディアコンテンツから特徴を抽出するための特徴抽出モジュールを含む。例えば、特徴抽出モジュールは、音楽の演奏のソロを検出することができる、又は音楽、拍手、発話等を検出することができる。フォーマット化モジュールは、システムにより生成されるメディア表現をフォーマット化する。フォーマット化モジュールは又、メディア表現に特徴抽出情報を適用し、表現指定に従ってその表現をフォーマット化する。更に、システムは、特徴抽出情報とメディア表現指定とに基づいて、メディア表現を生成する拡張出力装置を含むことができる。メディア表現は、紙ベースのフォーマット、デジタルフォーマットまたはいずれの他の表現フォーマットの状態で生成されることができる。生成されたメディア表現は、メディアコンテンツタイムラインに沿ったポイントに任意アクセスすることができるユーザ選択可能識別子を含むことができる。

本発明の方法は、メディアコンテンツから特徴を抽出する段階と、表現フォーマットを指定するデータ構造又は仕様に基づいて及び抽出された特徴を用いて、メディア表現をフォーマット化する段階とを含む。その方法は又、フォーマット化の結果に基づいて、メディア表現を生成する段階を含む。

時間ベースのメディアの表現を生成するためのシステム及び方法について説明する。本発明の実施形態に従って、プリンタは、特徴抽出情報を組み込むことができる時間ベースのメディアの表現を生成する。更に詳細には、プリンタは、マルチメディア情報についての視覚的表現を生成する文書を生成するために、及びマルチメディア記録におけるポイントへの任意アクセスを可能にするインデックスを生成するために、フォーマット仕様、特徴抽出及びフォーマット化アルゴリズムを組み込む。

本発明の目的のために、用語“メディア”、“マルチメディア”、“マルチメディアコンテンツ”、“マルチメディアデータ”又は“マルチメディア情報”は、テキスト情報、グラフィック情報、アニメーション情報、音声（オーディオ）情報、映像情報、スライド情報、ホワイトボード画像情報及び他のタイプの情報のいずれか１つ又はそれらの組み合わせをいう。例えば、テレビジョン放送の映像記録は、映像情報と音声情報とから構成されることが可能である。特定の例においては、映像記録は又、クローズドキャプションド（ＣＣ：ｃｌｏｓｅｄｃａｐｔｉｏｎｅｄ）テキスト情報から構成され、そのＣＣテキスト情報は映像情報に関連する要素から構成され、多くの場合、映像記録の音声部分に含まれる発話の正確な表現である。マルチメディア情報は又、１つ又はそれ以上のオブジェクトから構成される情報を参照するために用いられ、それらオブジェクトは異なるタイプの情報を含む。例えば、マルチメディア情報に含まれるマルチメディアオブジェクトは、テキスト情報、グラフィック情報、アニメーション情報、音声（オーディオ）情報、映像情報、スライド情報、ホワイトボード画像情報及び他のタイプの情報から構成されることが可能である。

本発明の目的のために、用語“プリント”又は“プリンティング”は、あるタイプの媒体への印刷をいうとき、プリンティング、書き込み、描画、インプリンティング、エンボシング、デジタルフォーマットの生成及び他のタイプのデータ表現の生成を含むことを意図している。又、本発明の目的のために、システムにより生成される出力は、“メディア表現”、“マルチメディア文書”、“マルチメディア表現”、“文書”、“ペーパー文書”若しくは“映像ペーパー”又は“オーディオペーパー”をいう。単語文書及びペーパーが以上の用語で呼ばれる一方、本発明におけるシステムの出力は、例えば、ペーパー媒体のような物理的媒体等に限定されない。それに代えて、上記の用語は、ある有形の媒体に固定されるいずれの出力をいうことができる。一部の実施形態においては、本発明のシステムの出力は、物理的ペーパー文書においてプリントされたマルチメディアコンテンツの表現とすることができる。ペーパーフォーマットにおいて、マルチメディア文書は、ペーパーの高解像度と可搬性を利用し、マルチメディア情報の読み取り可能な表現を提供する。本発明の教示するところに従って、マルチメディア文書は又、マルチメディア情報を選択し、検索し、それにアクセスすることが可能である。他の実施形態においては、システムは、デジタルフォーマット又はある他の有形の媒体に出力することができる。更に、本発明の出力については、デジタルフォーマットにおけるマルチメディア情報を記憶するいずれの記憶ユニット（例えば、ファイル）を引き合いに出すことができる。マルチメディア情報を記憶するために、種々の異なるフォーマットを用いることが可能である。それらのフォーマットは、ＭＰＥＧフォーマット（例えば、ＭＰＥＧ１、ＭＰＥＧ２、ＭＰＥＧ４、ＭＰＥＧ７等）、ＭＰ３フォーマット、ＳＭＩＬフォーマット、ＨＴＭＬ＋ＴＩＭＥフォーマット、ＷＭＦ（Ｗｉｎｄｏｗｓ（登録商標）ＭｅｄｉａＦｏｒｍａｔ）、ＲＭ（ＲｅａｌＭｅｄｉａ）フォーマット、Ｑｕｉｃｋｔｉｍｅフォーマット、Ｓｈｏｃｋｗａｖｅフォーマット、種々のストリーミングメディアフォーマット、エンジニアリング共同体、専用及び慣用フォーマット並びに他のフォーマットにより発達したフォーマットを含む。

“１つの実施形態”又は“実施形態”の明確化における基準は、実施形態に関連して述べられる具体的な特徴、構成、特性が本発明の少なくとも１つの実施形態に含まれることを意味している。明細書の種々の部分における
“１つの実施形態において” との表現がある場合、必ずしも、全てが同じ実施形態を参照しない。

下の説明においては、説明目的のために、本発明を理解することを通じて提供されるように、多くの具体的な詳細例を示している。しかしながら、それらの具体的な詳細例がなくとも、本発明を実施ですることができることは、当業者には理解できるであろう。他の例においては、本発明を分かり難くすることを回避するように、ブロック図の方式で構造及び装置を示している。例えば、本発明について、オーディオコンテンツを主に参照して説明し、プリンタにより生成される表現は、しばしば、音声ペーパーと呼ぶこととする。しかしながら、たとえ、以下の説明が音声コンテンツ及び音声ペーパーにのみ関連する特徴についてのものであっても、本発明の特徴は、いずれのタイプのメディアコンテンツに適用することができ、紙ベースのフォーマット以外のフォーマットにおけるメディア表現を対象とすることができる。

ここで、図１を参照するに、時間ベースのメディアの表現を生成するための例示としてのシステム１００を示している。この実施形態において、マルチメディア表現を生成するための拡張出力装置またはプリンタ１０２を示している。プリンタ１０２は、種々の構成要素から構成され、従来型のプリンタ１０３、音声ペーパー生成システム（ＡＰＰＳ）１０８及びプリンタコンソールのため及びプリンタドライバインタフェースのための処理ロジック１０６を含んでいる。

プリンタ１０２は、音声データのようなマルチメディアデータを受信し、このコンテンツは、システム１００にアクセス可能であるマルチメディア文書に記憶されることが可能である。マルチメディアコンテンツは、システム１００に直接記憶されることが可能である、又はシステム１００によりアクセスされることができる外部の記憶装置又はサーバ（図示せず）に記憶される情報であることが可能である。他の実施形態においては、眼ル地メディア文書にアクセスすることに代えて、システム１００は、マルチメディア情報ソースからマルチメディア情報のストリーム（例えば、ストリーミングメディア信号、ケーブル信号等）を受信することが可能である。システム１００にマルチメディア情報を提供することができるソースの例としては、テレビジョン、テレビジョン放送受信器、ケーブル受信器、映像受信器、デジタル映像受信器、携帯デジタル端末（ＰＤＡ）等がある。例えば、マルチメディア情報のソースは、マルチメディア放送信号を受信し且つシステム１００にその信号を送信するように構成されるラジオとして具現化されることが可能である。この例においては、情報ソースは、システム１００にライブのラジオ放送供給情報を供給するラジオ受信器／アンテナであることが可能である。情報ソースは又、システム１００に記録された映像及び／又は音声ストリームを供給する、例えば、ビデオレコーダ／プレーヤ、ＤＶＤプレーヤ、ＣＤプレーヤ等の装置であることが可能である。代替の実施形態においては、情報のソースは、システム１００に捕捉されたプレゼンテーション又はミーティングの情報のストリームを供給することができる、プレゼンテーション又はミーティングレコーダであることが可能である。更に、マルチメディア情報のソースは、外部ソースからのマルチメディア情報を捕捉又は受信し、次いで、更なる処理のためにシステム１００に捕捉されたマルチメディア情報を供給する（例えば、無線リンクにより）ように構成された受信器（例えば、衛星放送用アンテナ又はケーブル受信器）であることが可能である。

マルチメディアコンテンツは、例えば、ＲｅａｌＰｌａｙｅｒ（登録商標）、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）ＭｅｄｉａＰｌａｙｅｒ等の専用の又はカスタマイズされたマルチメディアプレーヤから発せられることができる。代替の実施形態においては、システム１００は、マルチメディア情報ソースにより受信されるマルチメディア情報信号を途中で捕らえるように構成されることが可能である。システム１００は、マルチメディア情報ソースからマルチメディア情報を直接受信することが可能である、又は、それに代えて、通信ネットワーク（図示せず）により情報を受信することが可能である。

再び、プリンタ１０２の構成要素を参照するに、図１においては、プリンタ１０２の従来型プリンタ１０３の構成要素を示している。プリンタ１０２の従来型プリンタ１０３の構成要素は、例えば、インクジェットプリンタ、レーザプリンタまたは他の印刷装置の一部または全てを含むことができる。従って、従来型プリンタ１０２は、ペーパー文書を印刷するための機能を有しており、又、ファックス装置、コピー装置及び物理的文書のための他の装置の能力を有することが可能である。印刷システムについての更なる情報は、“ＮｅｔｗｏｒｋｅｄＰｒｉｎｔｉｎｇＳｙｓｔｅｍＨａｖｉｎｇＥｍｂｅｄｄｅｄＦｕｎｃｔｉｏｎａｌｉｔｙｆｏｒＰｒｉｎｔｉｎｇＴｉｍｅ−ＢａｓｅｄＭｅｄｉａ”と題され、２００４年３月３０日に、Ｈａｒｔ等により出願された米国特許出願公開第１０／８１４，９４８号明細書において提供されており、この文献の援用によって発明の説明の一部を代替する。

図１においては又、本発明のこの実施形態における音声ペーパー生成システム（ＡＰＰＳ）を示している。このシステムは音声ペーパー生成システムと呼ばれるが、それに代えて、他の実施形態における映像ペーパー生成システム又はいずれの他のタイプのマルチメディア生成システム
であってもよい。更に、ＡＰＰＳ１０８は、そのタイトルにおいて“ペーパー”の言葉で呼んでいるが、ＡＰＰＳ１０８は又、デジタルフォーマット及び他のタイプのフォーマットにおけるマルチメディア表現を生成するために用いられることができる。

ＡＰＰＳ１０８は、プリンタ１０２の一部であるとして図１に示されている。しかしながら、他の実施形態においては、ＡＰＰＳ１０８は、例えば、プリンタ１０２に接続されることができるパーソナルコンピュータ（ＰＣ）（図示せず）に遠隔的に位置付けられる。ＡＰＰＳ１０８は、特徴抽出能力及びフォーマット化能力を有する。音声ファイルは、入力技術及び特徴抽出技術がマルチメディアコンテンツの表現（即ち、波形の状態の音声コンテンツの表現）を生成するために適用されるとき、ＡＰＰＳ１０８に入力される。表現または文書１２０は、特徴抽出の間にマルチメディアコンテンツにおいて認識される特定の特徴のためのマーカーを含むことができる。例えば、表現１２０は、音声タイムラインに沿って、拍手が起こる時間毎に又は音楽トラックにおけるサックス奏者のソロ演奏がある時間毎に対するマーカーを有することが可能である。適用される特徴抽出技術は、ユーザにより定義されることが可能である、又は、それに代えて、デフォルトプリンタ１０２設定により設定されることが可能である。ＡＰＰＳ１０８のフォーマット化機能は、特徴抽出結果を用い、文書フォーマット仕様（ＤＦＳ）に従ったフォーマット化を適用する。

一部の実施形態においては、ユーザは、ＤＦＳ１０４に提供されるフィールドに情報を入力することにより生成される文書１２０に関連してフォーマット化好みを設定することができる。一部の実施形態においては、ユーザは、文書フォーマット及びレイアウト、フォントタイプ及びサイズ、各々の行に表示される情報、ヘッダに表示される情報、スケジュールカラムのサイズ及び位置、フォントの色、行間隔、行当たりの文字数、ボールディング及び拡大縮小技術、文書が印刷される言語、紙のサイズ、紙の種類等に関する好みを設定することができる。例えば、ユーザは、表示されるマルチメディアコンテンツの名前を表す、大きいボールドフォントのヘッダを含むマルチメディア文書を有するように選択することが可能であり、ユーザは、ページ当たり表示されるマルチメディアコンテンツのグラフィク表現の配列を選択することができる。

ＤＦＳ１０４は、音声データに適用される特徴抽出と出力文書１２０を生成するために用いられるフォーマットガイドラインとを決定する。ＤＦＳ１０４は、ＰＣ（図示せず）におけるプリンタドライバダイアログインタフェースのような外部のアプリケーションにより供給されることができるデータ構造であり、プリンタのコンソール（図示せず）におけるＡＰＰＳ１０８と対話することにより対話的に決定されることができる。ＤＦＳ１０４はマルチメディアデータの表現を表す。ＤＦＳ１０４は、ユーザに対して表示されるユーザインタフェースを格納するために用いられ、ユーザにフォーマット化オプションを与える。ＤＦＳ１０４は、マルチメディアデータを適用されることができる、ユーザに対して提供される特徴抽出オプションを決定する。ＤＦＳ１０４は又、出力文書を生成するために用いられるフォーマットガイドラインを決定する。

ＤＦＳ１０４は、音声コンテンツ、音声コンテンツの構成者などのタイトルについての情報のような、音声ファイルについてのメタデータ情報を含むことができる。ＤＦＳ１０４は又、セグメントの開始時間及び終了時間（例えば、音声記録の開始時間及び終了時間）及びタイムラインに沿って表示されることができるマルチメディアデータノグラフィック表示（例えば、時間に対する音声信号の振幅を示す波形）のための仕様を含むことができる。ＤＦＳ１０４は、タイムラインに沿って表示されることが可能である各々のタイムスタンプ（即ち、バーコード、ＲＦＩＤタグ、ＵＲＬ又はマルチメディアデータを検索することができる位置についてのある他の表示）のためのメタデータ及びタイムスタンプマーカーに対する仕様を更に含むことができる。

図１に示す実施形態において、プリンタは、プリンタコンソール及び印刷ドライバインタフェースに対する処理ロジック１０６から更に構成される。処理ロジック１０６は、印刷ドライバダイアログインタフェース（図示せず）を介してユーザと対話する。例えば、処理ロジック１０６は、マルチメディアコンテンツが祭りメディア表現１２０の状態で表示されるフォーマット又はマルチメディアコンテンツの処理のような、特定のプリンタの動作をユーザが制御することを可能にするユーザインタフェースの表示を管理する。又、ユーザインタフェースの機能はウェブインタフェースにより提供されることができ、このウェブインタフェースによるフォーマット化イシューのようなプリンタの動作をユーザが管理することを可能にする。更に、処理ロジック１０６は、音声ペーパーに紙または電子フォーマットを戻すことができる。例えば、一部の実施形態においては、ユーザは、表現が印刷されるフォーマットを選択することができる。他の実施形態においては、プリンタ１０２は、表現のフォーマットに関してデフォルト設定素自動的に適用する。

プリンタ１０２により生成されたマルチメディア文書１２０は種々のフォーマットから構成されることができる。例えば、マルチメディアフォーマット１２０は、図１に示す方式の音声ペーパー文書１２０のようなペーパー文書であることが可能である。プリンタ１０２により生成されるマルチメディア文書１２０は又、デジタルメディアに記憶されることができる。デジタルメディア書き込みハードウェアは、例えば、ネットワークインタフェースカード、ＤＶＤライタ、セキュアデジタル（ＳＤ）ライタ、ＣＤライタ等を含むことができる。マルチメディアコンテンツは、例えば、フラッシュ媒体、ＤＶＤ，ＣＤ等のようなデジタル媒体に記憶されることができる。

マルチメディアコンテンツ１２０は、多くの異なるタイプのレイアウトを有することができ、種々のタイプの情報を表示することができる。図１は、音声コンテンツを表示する音声ペーパー文書１２０の例を提供しているが、他の実施形態においては、文書は、映像コンテンツを表示する映像ペーパー文書でることが可能である。映像ペーパー文書の生成についての更なる情報は映像ペーパーアプリケーションにおいて提供され、それらアプリケーションの各々については、そのアプリケーションの援用によって発明の説明の一部を代替する。

図１の例において、音声ペーパー文書１２０は音声情報の音声波形１１２表示を示している。レイアウト及びフォーマット情報は、音声記録から抽出される音声コンテンツの長さ、メディアにおける音声波形１１２の配列及び他の情報を指定する。音声情報に対して、プリンタ１０２は、マルチメディア情報の特定なセグメントに対する音声の顕著な特徴を捕捉するセグメント（又は情報を与えるフレーム）を抽出することができる。更に、上記のように、プリンタ１０２は、特徴抽出能力（例えば、音声イベント検出等）を含むことが可能であり、例えば、特定の話者、音楽、笑い声又は叫び声等のような興味のあるアイテムについての音声セグメントにおいてユーザが検索することを可能にする。生成された文書１２０は、１つの音声波形１１２を表示することができる、又は２つ以上の音声波形に表示される音声コンテンツを分離することができる。図１における音声波形１１２は垂直方向に表示されているが、他の実施形態においては、音声波形１１２は他の配置に表示されることができる。

更に、図１の音声波形１１２は、音声波形１１２に対して表示される音声コンテンツの開始及び終了にマーカーを付けるタイムスタンプマーカー１１４を有している。代替として、音声波形１１２は、全長に沿って多くのタイムスタンプマーカー１１４（即ち、マーカーのユーザ定義位置）を有することができる、又は、文書１２０はタイムスタンプマーカー１１４を全く有しないようにすることができる。

図１の音声ペーパー１２０の実施形態において、文書１２０はヘッダ１１０を含むことができる。ヘッダ１１０は、文書１２０に含まれる音声コンテンツについての一般情報を提供する。例えば、ヘッダ１１０は、文書１２０に関して表示される音声コンテンツのタイプ（例えば、“会議”）、音声コンテンツの記録の日付（例えば、２００３年１１月２１日）そして音声コンテンツが記録された場所（例えば、ＲＩＩ会議室）についての情報を含むことが可能である。

本発明の他の実施形態においては、ユーザ選択可能識別子１１６（例えば、バーコード又はテキストタグ）は音声波形１１２に対応している。図１の例においては、ユーザ選択可能識別子１１６は、ユーザ定義位置において音声波形１１２の右側に表示されているが、その代わりに、そのページのいずれかの位置に表示することができる。それらの識別子１１６は、インデックスマーカーとして機能し、ユーザが対応する音声コンテンツにアクセスすることを可能にしている。例えば、紙に印刷された文書１２０において、ユーザは、そのページのバーコード識別子１１６を物理的に走査することができ、このしけ別氏は、音声波形１１２において表示されている音声コンテンツにおける音声セグメントを指し示す。ユーザは、携帯電話又は携帯デジタル端末（ＰＤＡ）のような、組み込まれたバーコードスキャナを有するいずれかのタイプの装置（図示せず）を用いて、ペーパー文書１２０における適当なバーコードを走査することによりユーザ選択可能識別子１１６を選択する。

音声ファイルは、いつ文書が生成されたかを特定する技術（例えば、バーコード走査）に任意アクセスすることを可能にする装置においてプレイされることができる。例えば、
バーコードを含む文書は、バーコードリーダと所定ポイントにおいて開始する音声ファイルをプレイする命令にバーコードを変換することができるソフトウェアとを有する携帯電話においてプレイされることができる。それ故、ユーザ選択可能識別子１１６は、ユーザがマルチメディア文書１２０において表示されるマルチメディアコンテンツにアクセスする又はそれを検索することを可能にするためのインタフェースとして機能する。

一例として、図１のバーコードを走査することにより、ユーザは、音声セグメントが表示装置（例えば、テレビジョン、ＰＣモニタ、携帯電話のスクリーン、ＰＤＡ等）においてマーカーを付けられた位置からプレイを開始するようにすることができる。マルチメディア文書１２０は、例えば、記録された部分がプレイされている間に、ＰＤＡが連続音を立てるようにすることにより、触覚的フィードバックさえ提供することができる。他の例として、ペーパーマルチメディア文書１２０は又、バーコードマーカーに付加してまたはそれに代えて含む数字識別子を有することができ、ユーザは、システム１００がプリンタ表示または他の装置における音声セグメントをプレイするように命令するプリンタまたは外部装置におけるキーパッド又はタッチパッド（図示せず）にそれらの数字をタイプすることができる。又、図１に示している音声ペーパー文書１２０がデジタルフォーマットである場合、システム１００は、デジタル文書から直接プレイされる音声セグメントをユーザが選択することが可能であるように（即ち、プレイボタンを選択することによりマウス又は他の選択装置を用いて音声波形１１２における位置をチェックすることにより）、システム１００を構成することが可能である。

プリンタ１０２は、ユーザ選択可能識別子１１６に対応するマルチメディア情報を検索することができる。選択装置（即ち、数字識別子の状態で入力するためのバーコードスキャナ又はキーパッドを有する装置）からプリンタに通信される信号は、ユーザにより選択される音声セグメント、プレイされる音声コンテンツの場所、セグメントが選択されるようになっているマルチメディアペーパー文書、好みに及び／又はユーザにより選択された１つ又はそれ以上のマルチメディア表示装置（例えば、携帯電話）関する情報、要求されたマルチメディア情報の検索を容易化するための他の情報等を識別することが可能である。例えば、システム１００は、ＰＣ（図示せず）において記憶された音声ファイルにアクセスすることができ、システムはユーザの命令に関してこの音声コンテンツをプレイすることができる。

図１の例は、文書１２０における音声波形１１２に沿ってマーカーを付けられた位置の隣のテキスト情報１１８を更に示している。この例において、テキスト情報１１８は、音声波形１１２に沿って、マーカーを付けられた位置に対応する会話のトランスクリプトの部分を含んでいる。このようにして、ユーザ選択可能識別子１１６を選択することにより、ユーザは、音声コンテンツがユーザ選択可能識別子１１６に対応するテキスト情報１１８の開始においてプレイを開始するようにすることができる。種々の他のタイプのテキスト情報１１８は又、会話の要旨、話者の名前等のような、文書１２０における音声波形１１２タイムラインに沿って表示されることができる。

システム１００により生成されたマルチメディア文書１２０は、多くの異なる方法において使用されることができる。例えば、文書１２０は、ユーザに、興味をもたれている特定の音声コンテンツを検索することにより音声データを視覚的に調べる従来の方法を提供し、このような選択されたコンテンツに関するテキストとマーカーを提供し、ユーザが音声コンテンツにアクセスし且つそれをプレイするインタフェースを提供する。又、このタイプのマルチメディア文書１２０に関して、多くの変形が存在する。例えば、ユーザは、両面映像又は音声ペーパーを印刷することができる。この例においては、ユーザは、文書の両面にインクを供給することができるプリンタにおいてマルチメディア文書１２０を印刷する。オリジナルの音声又は映像ペーパーフォーマットを、文書の前面に印刷することができる。背面には、前面において表現されているデータについての２次元のバーコード表示を示すことができる。このフォーマットは、ファイリングキャビネットに格納することが可能であるスタンドアロンペーパーベース表現を提供し、それに続くマルチメディアコンテンツの検索は、オフペーパー表現への参照を必要としない。文書の前面において印刷された画像から近似のデジタルデータを抽出し、２次元バーコードにおいて符合化されるような高周波数成分でその近似のデジタルデータを補う、組み合わせの技術を用いることが可能である。

他の例として、ユーザは、孔の開いた映像又は音声ペーパーのような有孔マルチメディア文書を作成することができる。例えば、ユーザは、紙の異なる有孔ストリップに各々印刷されたシーンにセグメント化された映像ファイルを印刷することができる。各々のストリップは、映像コンテンツからの少なくとも１つの映像フレームと、映像データのオンラインリポジトリを参照する少なくとも１つのバーコードとを含むことができる。例えば、ストリップはノートに貼り付け、掲示板に貼り出すことが可能である。有孔音声ペーパーの場合、ユーザは、話者、音声定位化、音声イベント検出等によりセグメント化された音声ファイルを印刷することができ、これらのセグメント化タイプの各々を紙の異なる有孔ストリップに印刷することができる。例えば、１つのストリップは、会議中に人が議論していたときの例を示すバーコードを含むことが可能である。各々のストリップは、音声データのオンラインリポジトリを参照する少なくとも１つのバーコードを含むことができる。しかしながら、マルチメディアデータは制限されることができるため、マルチメディアに対する完全スタンドアロン表現を提供するために２次元バーコードを用いることが可能である。これらのストリップは切り取られ、記録のほんの小さな断片を思い出す必要がある人又は音声の記録を編集する必要のある人により容易に持ち歩くことが可能である。上記のように、ストリップは又、ノートに貼り付け、掲示板に貼り出すことが可能である。

他の例として、ユーザは、マルチメディア文書１２０を用いて、ＤＶＤ又はＣＤカバーシートを作成することができる。この例においては、ユーザは、この印刷技術を用いて、ＤＶＤ又はＣＤを印刷することができる。更に、プリンタ１０２は、シーンを参照するバーコード及び映像ファイルからセグメント化されたシーンからの映像フレームを示すカバーシートを自動的に生成するようにプログラムされることができる。このようなカバーシートを、例えば、プリンタ１０２における特定のトレイに挿入することが可能である小さい紙材に印刷することができる。又、カバーシートは標準的な紙材に印刷し、典型的なＤＶＤホルダに適合するように、紙をどのように折り畳むべきかを示す折り畳みのマーカーを付けることができる。類似するカバーシートを、音声コンテンツのマーカーが付けられた部分を調べるバーコード及びユーザ選択コンテンツに対するマーカーを表す音声波形１２２タイムラインを表示する音楽ＣＤに対して印刷することができる。マルチメディア情報の印刷可能表現を生成することについての更なる情報は、上で参照した、映像ペーパーアプリケーションにおいて提供されている。

ここで、図２を参照するに、本発明の実施形態のアーキテクチャを示している。この実施形態において、システム２００は、システム２００に入力される音声ファイルをしょりすることができるＡＰＰＳ１０８を含む。ＡＰＰＳ１０８はプリンタ１０２に位置付けられることができ、又はＡＰＰＳ１０８はデータ処理システム（図示せず）に位置付けられることができ、それは、ＰＣ，ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、メインフレーム、キオスク、標準的リモートコントロール、ＰＤＡ、ゲーム制御器、携帯電話のような津真装置、アプリケーションサーバ又はその他のデータシステムを含むことが可能である。又、ＡＰＰＳ１０８は、データ処理システムに結合されるプリンタ１０２に位置付けられることが可能である。

図２の例においては、ＡＰＰＳ１０８は、構成要素としての特徴抽出モジュール２０２及びフォーマット化モジュール２０４から構成される。上記のように、システム２００は、音声ファイルのようなマルチメディア情報にアクセスする、又はそれを受信する。そのファイルはシステム２００において記憶されることができ、又はプリンタに結合されるデータ処理システム（図示せず）において記憶されることができる。図２の実施形態においては、ユーザは、ユーザがマルチメディア情報を再生する、記憶する、インデックス付けする、編集する又は操作することを可能にする種々の標準的マルチメディアプレイツールのいずれか１つを用いて、音声ファイルを聴くことができる。例として、専用の又はカスタマイズされたマルチメディアプレーヤ（例えば、ＲｅａｌＮｅｔｗｏｒｋｓ製のＲｅａｌＰｌａｙｅｒ（登録商標）、Ｍｉｃｒｏｓｏｆｔ社製のＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）ＭｅｄｉａＰｌａｙｅｒ、Ａｐｐｌｅ社製のＱｕｉｃｋＴｉｍｅ（登録商標）Ｐｌａｙｅｒ、Ｓｈｏｃｋｗａｖｅマルチメディアプレーヤ、その他）と、映像プレーヤ、テレビジョン、ＰＤＡ等を含む
音声ファイルは、データポート２０６を通ってＡＰＰＳ１０８に入ることができる。このポートは、イーサネット（登録商標）接続のような、いずれかのタイプのデータポートを含むことができ、そのデータポートに対してデータはプリンタ１０２に入力されることができる。更に、ＤＦＳ１０４は接続に対してＡＰＰＳ１０８に入力され、その接続２０８は、ＤＦＳ１０４の記憶器の位置（図示せず）にＡＰＰＳ１０８を結合している。特徴抽出モジュール２０２及びフォーマット化モジュール２０４の両方はＤＦＳ１０４情報を用いることができる。ＤＦＳ１０４は、特徴抽出モジュール２０２によりマルチメディアコンテンツに適用される特徴抽出技術を規定し、ＤＦＳ１０４は、フォーマット化モジュール２０４により用いられる文書フォーマット化情報を規定する。

ＤＦＳ１０４は種々の異なるタイプの情報を含む。ＤＦＳ１０４は、表現が生成される音声ファイルについてのメタデータを含む。例えば、ＤＦＳ１０４は、音声記録のタイトル、アーチスト、発行者等のような情報を含むことができる。ＤＦＳ１０４は、記録についての開始時間及び終了時間を含むことができる。ＤＦＳ１０４は又、タイムラインに沿って表示されることができる音声データのグラフィック表示のための仕様を含むことができる。例えば、そのグラフィック表示は、図１において説明したような音声波形とすることができる。その音声波形は時間に対する音声信号の振幅を示すことができ、ユーザは、必要なときに音声波形を拡大及び縮小を行うことができる。他の例は波形に対するＪＰＥＧである。ＤＦＳ１０４は又、タイムラインに沿って表示することが可能である、各々のタイムスタンプ又はユーザ選択可能識別子（例えば、テキストタグまたはバーコード）に対するタイムスタンプマーカー及びメタデータのための仕様を含むことができる。

レイアウトパラメータは又、ＤＦＳ１０４において規定されることができ、そのＤＦＳ１０４において、パラメータは、生成された物理的文書１２０のアピアランスを決定する。レイアウトパラメータは、例えば、文書１２０の各々のページにおいて表示される、タイムラインの一部のための仕様を含むことができる。レイアウトの生成は、デフォルト挙動仕様により決定され、プリンタデフォルト設定（例えば、プリンタ特性）において格納されることができる。これは、プリンタのコンソールにおけるユーザインタフェース、ウェブページ等を用いて、対話処理又はペーパー文書１２０の自立生成を含むことができる。

特徴抽出モジュール２０２は、グラフィック表現並びにＤＦＥ１０４において指定されたタイムスタンプ及びユーザ選択可能識別子１１６を生成する。グラフィック表現の例として、時間に対する音声ファイルの振幅を示す曲線を含む。ユーザ選択可能識別子１１６に用いられることが可能である他の特徴の例として、音楽の演奏のソロの検出、発話の認識、拍手の検出、音楽の検出等を含む。

フォーマット化モジュール２０４は、接続２１０により特徴抽出モジュールに結合される。特徴抽出データは、文書１２０のフォーマット化で用いるためにフォーマット化モジュール２０４への接続２１０に対して送信される。フォーマット化モジュール２０４は、音声特徴及びＤＦＳ１０４を、ＰＤＦ文書のような、電子ファイルとして又は紙にレンダリングされることができる文書表現に変換する。ＤＦＳ１０４は、文書フォーマット化パッケージ（例えば、ＭｉｃｒｏｓｏｆｔＷｏｒｄ）により典型的に生成される他の情報及び用いられるフォントについての詳細情報を含む。このレイアウト情報は、下で説明するように、ＤＦＳ１０４の“レイアウト”フィールドに含まれる。

図２のシステム２００は又、プリンタにおいて、データ信号を処理する処理器（図示せず）を含むことができる。処理器（図示せず）は、ＣＩＳＣ（ＣｏｍｐｌｅｘＩｎｓｔｒｕｃｔｉｎＳｅｔＣｏｍｐｕｔｅｒ）アーキテクチャ、ＲＩＳＣ（ＲｅｄｕｃｅｄＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｅｒ）アーキテクチャ又は命令集合の組み合わせを実行するアーキテクチャを含む種々のコンピューティングアーキテクチャから構成されることが可能である。システム２００は、１つの処理器又は複数の処理器を含むことができる。主メモリ（図示せず）は、ソフトウェア及びシステムの他の構成要素を含む処理器２１４により実行されることが可能であるデータ及び／又は命令を記憶することが可能である。命令及び／又はデータは、ここで説明する技術のいずれか及び／又は全てを実行するためのコードから構成されることが可能である。主メモリ（図示せず）は、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）デバイス、ＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）デバイス又は当該技術分野で既知のある他のメモリとすることが可能である。

プリンタ１０２が印刷要求を受信するとき、一部の実施形態においては、その要求及び対応するマルチメディアデータは、処理器（図示せず）に転送される。処理器は入力を解釈し、適切なモジュールをアクティブにする。一部の実施形態においては、処理器は、マルチメディアコンテンツを転送するために特徴抽出モジュール２０２に結合され、それを制御する。更に、処理器は、一部の実施形態においては、文書１２０のフォーマット化を制御するためにフォーマット化モジュール２０４に結合される。ＡＰＰＳ１０８は、適切な文書ベースの表現を生成し、文書１２０生成のパラメータを修正するため及びその結果をプレビューするために印刷ドライバダイアログインタフェース（図示せず）によりユーザと対話することができる。マルチメディア変換のパラメータ及び結果はＤＦＳ１０４において示される。処理器（図示せず）は又、従来型のプリンタ（図示せず）と通信し、それに印刷ジョブ情報を送信することにより文書１２０の生成を管理することができ、従来型のプリンタ（図示せず）はペーパー出力を生成する。上記のように、文書１２０は又、バーコードのようなユーザ選択可能識別子と、プリンタ１０２により記憶された又は指定されたオンラインデータベース（図示せず）において記憶されたマルチメディアデータへの他のリンクを含むことができる。

動作中、システム２００は、マルチメディアコンテンツを印刷するための方法を提供し、図において与えられた特定の例においては、システム２００は音声コンテンツを印刷するための方法を提供する。ここで、図３を参照するに、音声ペーパー生成システム１０８における処理段階を説明するフロー図を示している。下で説明するように、ＡＰＰＳ１０８は、サブルーチン処理を実行する制御プログラムに結合される。この実施形態においては、ＡＰＰＳ１０８の処理段階は、システムに音声ファイルを入力する段階３０２とシステムにＤＦＳ１０４を入力する段階３０２とを含む。ユーザの命令に基づいて、ＡＰＰＳ１０８は、グラフィック表現が要求されたか否かを判定する。否定的な場合、ＡＰＰＳ１０８は、特徴抽出が要求されたかどうか、判定する方に移行する。肯定的な場合、ＡＰＰＳ１０８は、ＤＦＳ１０４において生成された情報と音声ファイル情報とを用いてグラフィック表現を生成するために、システム２００の特徴抽出モジュール２０２を呼び出す３０４。ＡＰＰＳ１０８は、ＤＦＳ１０４においてリストアップされた文書仕様フィールドの１つとして特徴抽出結果の表現又はシンボリックフォームを付加する３０６ことにより、ＤＦＳ１０４を更新する。

処理における次の段階として、ＡＰＰＳ１０８は、特徴抽出が要求されたかどうかを判定する。否定的な場合、ＡＰＰＳ１０８は、ＤＦＳ１０４の“レイアウト”フィールドにおいてリストアップされたＤＦＳ１０４出力フォーマットにおいて指定された文書タイプを生成するためにフォーマット化モジュール２０４を呼び出す３１２方に移行する。肯定的な場合、ＡＰＰＳ１０８は、ＤＦＳ１０４において示された情報と音声ファイル情報とを用いて、ＤＦＳ１０４において要求されたマーカーを生成するために特徴抽出モジュール２０２を呼び出す３０８。ＡＰＰＳ１０８は、次いで、ＤＦＳ１０４にマーカーデータを追加する３１０。一旦、この段階が完了すると、ＡＰＰＳ１０８は、ＤＦＳ１０４の“レイアウト”フィールドにおいてリストアップされたＤＦＳ１０４出力フォーマットにおいて指定された文書タイプを生成するためにフォーマット化モジュール２０４を呼び出す３１２。

ここで、図４を参照するに、フォーマット化モジュール２０４の動作を説明するフローチャートを示している。下で説明するように、フォーマット化モジュール２０４は、サブルーチン処理を実行する制御プログラムに結合される。この実施形態においては、フォーマット化モジュール２０４の処理段階は、特徴抽出モジュール２０２により実施される特徴抽出の結果を入力する段階４０２を含む。ＤＦＳ１０４の“レイアウトページ”フィールドにおいて挙げられた各々のページに対して、フォーマット化モジュール２０４は、そのページのフォーマット化が終了したかどうかを判定する。肯定的な場合、フォーマット化モジュール２０４は制御プログラムにメッセージを返信する。そのフォーマット化が終了していない場合、フォーマット化モジュール２０４は、“メタデータ配置”に関するＤＦＳ１０４の“レイアウト”フィールドにおいて指定されたように、フォーマット化モジュール２０４においてメタデータをフォーマットする４０４。フォーマット化モジュール２０４は、次いで、特徴抽出の結果に基づいて、ＤＦＳ１０４の“レイアウトタイプ”フィールドにおいて指定されたように、特徴抽出モジュール２０２により生成されたグラフィック表現をフォーマットする４０６。フォーマット化モジュール２０４は、ＤＦＳ１０４の“マーカータイプ”フィールド、ＤＦＳ１０４の“マーカー頻度”フィールド及びＤＦＳ１０４の“マーカーｎ”フィールドに従って、バーコードを生成する４０８。マーカーは、次いで、バーコードを与えられるフォーマット化モジュール２０４において指定されたように、フォーマット化される４１０。システムは、次いで、フォーマット化メタデータ、グラフィック表現及びマーカーが与えられたページをレンダリングする４１２。一旦、この処理がページに対して終了すると、フォーマット化モジュール２０４は、次いで、“レイアウトページ”フィールドにおけるページ全てがフォーマット化されるまで、ＤＦＳ１０４の“レイアウトページ”フィールドにおける次のページ及び他のページ全てに対してこの処理を続ける。

ここで、図５を参照するに、マルチメディア文書１２０に対シルバーコードの生成について説明するフロー図を示している。下で説明するように、ＡＰＰＳ１０８は、サブルーチン処理を実行する制御プログラムに結合される。この実施形態においては、処理段階は、バーコードタイプ（例えば、２を５にインターリーブする）、バーコードにおける識別子の桁の数、バーコードにおけるタイムスタンプの桁の数およびタイムスタンプ値を含む情報を入力する段階５０２を含む。システムは、次いで、フォーマット化モジュール２０４から識別子フィールドを読み取る５０４、次いで、識別子を右寄せ１０進数列に変換する５０６。システムは、次いで、右寄せ識別子の長さがバーコードにおける可能な識別子の桁数より大きいかどうかを判定する。肯定的な場合、システムは制御プログラムにエラーコードに戻る。否定的な場合、システムは、タイムスタンプを右寄せ１０進数列に変換する５０８。システムは、次いで、右寄せのタイムスタンプの長さがバーコードにおいて可能なタイムスタンプの桁の数より大きいかどうかを判定する。肯定的な場合、システムはエラーコードを返信する。否定的な場合、システムは右寄せタイムスタンプを添付し５１０、右寄せ識別子に対して、その右寄せタイムスタンプは左側を０で埋められる。システムは、次いで、指定されたタイプのバーコード画像をレンダリングし５１２、識別子情報及びタイムスタンプ情報を含む。システムは、動作の終了の信号を送る制御プログラムに返信メッセージを送信する。

上記のフロー図は音声コンテンツに関連して説明したが、そのような方法は又、映像または他のメディアコンテンツに適用することができる。フロー図として示した図は、フォーマット仕様、特徴抽出及び音声ペーパー生成アルゴリズムのためのパラメータの異なる組み合わせを適用する結果の例を示している。上記のように、フォーマット仕様、特徴抽出及びパラメータは又、他のタイプのメディアコンテンツを表示する文書を生成するために用いられることができる。

図６は、一定間隔を置いたユーザ選択可能識別子１１６を有する音声ペーパーのグラフィック表示と、音声ペーパーを生成するための音声特徴抽出仕様６０２を有する対応するＤＦＳ１０４を示している。図６ａにおいては、音声ペーパー文書１２０を生成するためにレイアウト及びコンテンツを指定するためのＤＦＳ１０４を示している。図６ａは、種々のＤＦＳフィールドを含み、それらのＤＦＳフィールドにおいて、レイアウト及びコンテンツに関する情報が指定されている。この例においては、文書１２０（例えば、音楽のレコーディング）に含まれる音声コンテンツのタイプを挙げる“タイプ”フィールド６０４がある。“識別子”フィールド６０８は、バーコードまたはユーザ選択可能識別子１１６に含まれるようになっている識別化情報を挙げている。“タイトル”フィールド６１０は、音楽のレコーディング（例えば、Ｌｏｃｏｍｏｔｉｏｎ）のタイトルを挙げている。“アーチスト”フィールド６１２は、音声コンテンツを制作したアーチストの名前（例えば、ＪｏｈｎＣｏｌｔｒａｎｅ）を挙げている。ＤＦＳ１０４は、レコーディングが含まれる音楽コレクション又はアルバム（例えば、ＢｌｕｅＴｒａｉｎ）を指定する“コレクション”フィールド６１４を含んでいる。ＤＦＳ１０４は又、誰が及びいつの日付でそのレコーディングを発行したか（例えば、ＢｌｕｅＮｏｔｅＲｅｃｏｒｄｓ、１９５７）を特定する、“発行者”フィールド６１６及び“発行日付”フィールド６１８を含んでいる。“開始時間”フィールド６２０及び“終了時間”フィールド６２２は、音声コンテンツが開始した時間（例えば、“００：００：００”）及び音声コンテンツが終了した時間（例えば、“００：０７：１４”）を挙げている。“グラフィック表現”フィールド６２４は、文書１２０に含まれる音声コンテンツのグラフィック表現のタイプ（例えば、振幅曲線）について説明している。

ＤＦＳ１０４は又、文書１２０のレイアウトしようと共に、文書１２０に含まれるユーザ選択可能識別子１１６又はマーカーについての情報を含む。“マーカータイプ”フィールド６２８及び“マーカー頻度”フィールド６３０について示されているが、それらは、文書１２０（例えば、バーコード）に含まれるマーカーのタイプ及びマーカーがグラフィック表現に沿って現れる頻度（例えば、３０秒間隔）を指定する。更に、レイアウトフィールドは文書１２０のレイアウトについての情報を与える。図６ａにおいて、音声ペーパーのコンテンツの配置を指定する“レイアウトタイプ”フィールド６３２を示している。例えば、レイアウトタイプは、文書１２０において表示される１つの水平方向のタイムラインを含むことができ、又は、それに代えて、２つの水平方向のタイムラインを含むことが可能である。“レイアウトページ”フィールド６３４は文書１２０のページ数を指定する。“レイアウトマーカー配置”フィールド６３６は、ユーザ選択可能識別子１１６またはマーカーが表示される位置（例えば、グラフィック表現の上）を指定する。更に、“レイアウトメタデータ配置”フィールド６３８は、文書１２０におけるメタデータの配置についての情報を挙げている。メタデータは、ヘッダ又は他のメタデータを含むことができる。

図６ａのＤＦＳ１０４は、生成されたメディア表現についての情報の集合の一例を示している。他の実施形態においては、ＤＦＳ１０４は、例えば、ピクチャ情報、ハーパーテキスト、アーチストの経歴、アーチストの誕生日／死去日、アーチストの住所情報、表示されたメディアコンテンツをどこで購入するべきか（即ち、アルバムを購入するためのウェブサイトへのリンク）等のようなフィールドであって、それらに限定されない他の多くのフィールドを含むことができる。ＤＦＳ１０４の一部の他の例については又、下で説明する。これは変形の網羅的なリストではなく、多くの他のタイプの情報を組み込むことが可能である。

又、図６ａには音声特徴抽出仕様６０２を示している。“特徴”フィールド６０６は、音声コンテンツに適用される特徴抽出を規定する。この例において、音声特徴抽出６０２は音声振幅抽出及びグラフィック近似である。このようにして、文書１２０は音声波形１１２を示す。この例において、ＳＶＧファイルは出力される。

図６ｂにおいて、本発明の位置実施形態に従った音声ペーパー文書１２０のグラフィック表現を示している。この文書１２０において、ＤＦＳ１０４における使用に従ったヘッダ情報を有するヘッダ１１０を示している。ヘッダ１１０は又、ＤＦＳ１０４（において指定されているように位置付けられている、即ち、この場合、ページの上部に中央揃えされている）。文書１２０はタイムラインに沿って振幅曲線または音声波形１１２を表示している。本発明の他の実施形態においては、タイムラインは１つの直線又は他の種々のグラフィック表現により表されることができる。タイムラインは、音声レコーディングの長さに対応して、“００：００：００”から“００：０７：１４”まで実行される。タイムスタンプ１１４は音声波形１１２に沿って３箇所に示されており、レコーディングの開始時間と終了時間とにマーカーを付け、タイムスタンプ１１４と共に、セクションの中央の位置にマーカーを付けている。文書１２０は、ユーザの好みに従って、４つ以上のタイムスタンプ１１４を示すことができ、又はタイムスタンプ１１４を全く示さないことができる。

更に、文書１２０はユーザ選択可能識別子１１６（例えば、バーコード）を表示し、そのユーザ選択可能識別子１１６は、タイムラインに沿った位置においてユーザが音声コンテンツにアクセスすることができるインタフェースを提供する。一部の実施形態においては、ユーザは、各々のユーザ選択可能識別子１１６に対して特定の位置を指定することができる。この例において、ユーザは、文書１２０がタイムラインに沿って３０秒毎にバーコードマーカーを有するように指定した。これらのユーザ選択可能識別子１１６は、各々の個々の識別子１１６のより容易な選択を可能にするために、１つの長い線ではなく、“階段”方式で表示されている。しかしながら、ユーザ選択可能識別子１１６の配列は大きく変化させることができ、ＤＦＳ１０４において指定されることができる。上記のように、ユーザは対応する音声コンテンツをプレイするために印刷文書においていずれのユーザ選択可能識別子１１６を選択することができる。例えば、ユーザは、バーコードを走査することが可能であり、携帯電話又は他の表示装置においてタイムラインに沿ったいずれかの位置から開始するレコーディングをプレイするためにその位置において、バーコードスキャナを有する携帯電話を用いて、バーコードを走査することが可能である。

ここで、図７を参照するに、レコーディングにおける各々の音楽のソロのためのユーザ選択可能識別子１１６を有する文書１２０のグラフィク表示と、音声ペーパー１２０を生成するための音声特徴抽出仕様６０２を有する対応してＤＦＳ１０４とを示している。図７ａに示すＤＦＳ１０４は図６ａに示すそれに類似しているが、図７ａの例は幾つかの変更を含んでいる。図７ａのＤＦＳ１０４の例は、音声コンテンツに適用される特徴抽出を挙げる“特徴抽出”フィールド７０２を含んでいる。この場合、特徴抽出は、音声コンテンツにおける音楽のソロにマーカーを付けることを含んでおり、その特徴抽出において、出力は楽器名及びソロの開始する時間を示す。図７ａの例においては、“マーカータイプ１”フィールド７０４及び
“マーカータイプ２”フィールド７０６を示しており、これらのフィールドは文書１２０において表示されるユーザ選択可能識別子１１６の２つのタイプを指定する。例えば、文書１２０は、タイムスタンプ１１４の上に示されるバーコードの上に
示される楽器名を表示するマーカータイプ１を含む。この例においては、マーカータイプ２はバーコード（即ち、グラフィック表現の下の規定された位置に表示される第２バーコード）である。ＤＦＳ１０４は又、“レイアウトマーカー１配置”フィールド７１０及び“レイアウトマーカー２配置”フィールド７１２を含む。これらのフィールドは、タイムラインの下又はタイムラインの上のように、各々のマーカーが文書１２０において示されるところを指定する。

図７ａは又、“特徴”フィールド６０６における音声特徴抽出しよう６０２を示している。この例における音声特徴抽出しよう６０２は、ＳＶＧファイル出力と共に、音声振幅抽出とグラフィック近似とを含む。又、音声特徴抽出仕様６０２は音楽のソロの抽出を含み、各々のソロの開始時間及び各々のソロにおいて用いられる楽器を出力する。この例においては、特徴抽出の１つのタイプが音声コンテンツに適用されている。しかしながら、システムは、ある時間においていずれかの数の特徴抽出タイプを適用することができる。他の特徴抽出の例は、発話検出、話者検出、話者認識、映像／音声イベント検出、映像前景／後景セグメント化、顔検出、顔画像適合化、顔認識、顔カタログ化、映像テキスト定位化、光学式文字認識（ＯＣＲ）、言語翻訳、フレーム分類、クリップ分類、画像ステッチ、音声フォーマット変換、音声波形適合化、音声キャプション位置合わせ、映像ＯＣＲ及びキャプション位置合わせ、音声定位化、ラジオ送信認識、スライダによる音声／映像範囲選択、話者セグメント化、プロファイル分析、カラーヒストグラム分析、クラスタリング、動き分析、距離推定、シーンセグメント化、ナンバープレート又は自動車認識並びに動き分析等を含むが、これらに限定されるものではない。以上は、多様性の網羅的なリストではなく、多くの他のタイプの抽出を本発明に組み込むことが可能である。

図７ｂは、図７ａの音声特徴抽出仕様６０２及びＤＦＳ１０４に従った文書１２０のグラフィック表現を示している。文書１２０は、ヘッダ１１０と、水平方向に表示された音声波形１１２と、音声波形１１２の下部に沿った位置におけるタイムスタンプ１１４とを含む。この例においては又、各々のタイムスタンプ１１４の近くに含まれるユーザ選択可能識別子１１６がある。ユーザは、マーカーに位置における音声コンテンツのプレイを開始するためにこれらオンユーザ選択可能識別子を選択する（例えば、バーコードを走査する）ことができる。例えば、ユーザが時間“００：００：００”の上に示されるバーコードを走査する場合、レコーディングは初めからプレイを開始する。ソロの抽出は文書１２０において表示される音声コンテンツに適用されたため、音声波形１１２は各々の音楽のソロのためのマーカーを含む。それらのマーカーは、マーカーを付けられたソロのタイプ（例えば、サックスのソロ）と、ソロにインタフェースを提供するユーザ選択可能識別子１１６と、音声コンテンツにおけるソロの位置を示すタイムスタンプ１１４とを説明するテキスト表示７１４を含む。例えば、印刷文書における“サックス”ソロの下のバーコードを走査することにより、サックスのソロは表示装置において初めからプレイを開始する。

ここで、図８を参照するに、ラジオのプログラムのためのタイムラインを示す文書１２０のグラフィック表現と、音声ペーパー１２０を生成するための音声特徴抽出試用０２を有する対応するＤＦＳ１０４とを示している。図８ａに示されるＤＦＳ１０４は図６ａに示すそれに類似しているが、図８ａの例は幾つかの変更を含んでいる。図８ａの例は、ラジオプログラムに対するＤＦＳ１０４を示しており、ＤＦＳ１０４は、ラジオ番組に関する文書１２０に付加注釈を加える“注釈”フィールド８０２を含む。この例において、注釈は、プログラムにおけるゲストは“ＢｉｌｌＯ’Ｒｅｉｌｌｙ”であることを示している。このようにして、ラジオトークショーが存在する時間と、ホストの名前及びコマーシャルブレークが存在するインタバルと、会話の各々の部分のためのバーコードと共に紙に印刷されることができるその持続時間とのようなラジオトークショーに関する利用可能なメタ情報の要旨を示している。共演者が既知の場合、共演者の名前を含めることが可能である。バーコードは、システムのユーザにより別々に記録された音声データを指すことが可能であり、又は、トークショーにより提供されるウェブサイトにおける音声データを指すことが可能である。これは、文書の記録、生成、衛星放送のメディアファイル及びウェブページを後処理するソフトウェアに結合されることが可能である。トークショーが行われる間にオンラインで実行される注釈に生成処理をアクティブにリンクさせることにより更なるユーティリティが提供される。この注釈は、プログラムに電話を掛ける人の電話数のような、リスナに利用可能でない情報へのアクセスをプロデューサが有するため、そのショーが行われている間に、このような注釈はラジオ局において実行されることができる。

図８ｂは、音声特徴抽出仕様６０２を有するＤＦＳ１０４に従って表示された文書１２０を示している。文書１２０は、タイトルと日付とラジオプログラムについての注釈情報とを示すヘッダ１１０、音声波形１１２、タイムスタンプ１１４及び“３段階段”方式で表示されたユーザ選択可能識別子１１６を含んでいる。

ここで、図９を参照するに、キーワードについてのマーカーを有するラジオプログラムに対するタイムラインを示す文書１２０のグラフィック表現と、音声ペーパー１２０を生成するための音声特徴抽出仕様６０２を有する対応するＤＦＳ１０４とを示している。図９ａに示すＤＦＳ１０４は図８ａに示すそれに類似しているが、図９ａの例はマーカー情報に関する変更を含んでいる。図９ａの“マーカータイプ”フィールド６２８は、キーワード、バーコード及びタイムスタンプを含むマーカータイプを示している。“マーカー頻度”フィールド６３０は、その頻度が“ユーザ定義”されていることを示している。このようにして、この例においては、ユーザはタイムラインに沿って表示される各々のマーカーを選択した。“マーカー”フィールド９０２において、ユーザはマーカー１乃至１１に対する選択を行った。例えば、マーカー１に対して、ユーザはバーコード、タイムスタンプ及びマーカーテキストを示すテキスト（例えば、“ＷＴＣ”）を含むようにマーカーであって、マーカーを付けられた音声コンテンツを示す、マーカーを定義した。ユーザは又、タイムラインに沿って、“ｖｅｒｔ．ｐｏｓ．１”、“ｖｅｒｔ．ｐｏｓ．２”又は“ｖｅｒｔ．ｐｏｓ．３”のような各々のマーカーの垂直方向の位置を定義した。これらの位置付けの仕様は、タイムラインの上の多くの階段状の位置から選択されたマーカーが垂直方向のどこに位置付けられるかを決定する。音声特徴抽出６０２は又、グラフィック近似を有する音声振幅抽出である。

図９ｂは、図９ａの音声特徴週出仕様６０２とＤＦＳ１０４に従って表示された文書１２０を示している。文書１２０は、ラジオプログラムのためのヘッダ１１０と、音声波形１１２と、音声波形の下のタイムスタンプ１１４と、タイムラインに沿ってユーザ定義位置に表示されたマーカーとを含む。マーカーは、マーカーを付けられたラジオプログラムにおけるコンテンツを表すためにユーザにより設定されたテキスト情報７１４を含む。更に、マーカーは、ユーザ選択可能識別子１１６とタイムスタンプ１１４とを含む。

ここで、図１０を参照するに、検索語についての音声特徴抽出を有するラジオプログラムのためのタイムラインを示す文書１２０のグラフィク表現を示している。図１０ａのＤＦＳ１０４は、発話認識技術及びキーワード適合技術が音声コンテンツに適用された“特徴抽出”フィールド７０２において示されている。この例において、ユーザは、検索語として、“ＮｅｗＹｏｒｋＴｉｍｅｓ”又は“ｆａｉｒａｎｄｂａｌｅｎｃｅｄ（公正で中立）”を検索した。図１０ａは、適合化検索語、バーコード及びタイムスタンプを含む“マーカータイプ”フィールド６２８を示している。“マーカー頻度”フィールド６３０は、頻度が“ユーザ定義”であることを示している。このようにして、この例においては、ユーザはタイムラインに沿って表示される各々のマーカーを選択した。“マーカー”フィールド９０２において、ユーザはマーカー１乃至１１に対する選択を行った。例えば、マーカー１に対して、ユーザは、バーコード、タイムスタンプ及びマーカーを表すテキスト（例えば、“ｆａｉｒａｎｄｂａｌａｎｃｅｄ”を
含むマーカー並びに各々のマーカーの垂直方向の位置を定義した。

音声特徴抽出仕様６０２は又、グラフィック近時を有する音声振幅抽出を含む。音声特徴抽出仕様６０２は又、所定のキーワードのリストに適合する言葉と共に、発話認識を含む。このようにして、ユーザは、話者が特定の言葉を用いるラジオプログラムにおける位置と、発話の一部または全ての写しと共に、これらの位置がタイムラインに沿ってマーカーを付けられた位置とを検索した。代替として、ユーザは、発話認識のみを適用することが可能であり、発話がなされた音声コンテンツにおけるいずれかのポイントを認識することが可能である。発話認識出力は騒々しい可能性があるため、認識の信頼度についての一部の表現が又、含まれることができ、それ故、ユーザは、どの単語又は文章がより正確である可能性があるかを理解することができる。例えば、文書１２０は、認識の信頼度を表すために色又はフォントサイズにおける変化を有することが可能である。大きい信頼度の判定は赤色で１２ポイントのフォントで表される一方、最も低い信頼度の判定は青色で８ポイントのフォントで表されるようにすることが可能である。ユーザ選択可能識別子１１６は、最も大きい信頼度を有する判定のみ又は各々の判定に対して含まれることができる。

音声コンテンツに適用されることが可能である音声特徴抽出の他の例は、話者検出と話者認識とを含む。話者検出抽出は、記録における同一の話者達のグループを認識し、同じ人が話していたときを判定することができる。このことは、限定された色のパレットを用いて注釈を付けられたセグメントによりタイムラインに沿って表されることができ、各々の話者に対して異なる色で、及び同じ話者に対して同じ色で示すことができる。話者認識抽出は、音声記録の間に話した実在の人物を指定する。人物のシンボリック同一性は、走査されるときにセグメントの初めから音声をプレイするバーコードと共に、タイムラインのセグメントの隣に加えられ、計算されることができる。このことは、プリントアウトを走査すること、及び誰が会議に出席したかを理解することを可能にする。代替のバージョンは名前のリストを印刷することを可能にし、それらの名前の次にバーコードを付けることを可能にする。ユーザはこれらのバーコードを走査し、その人物が話をしたときの記録のいつ部を聴くことが可能である。他の例は、それらの人物達についての顔画像を検索し、それらの人物の名前及びバーコードの隣にそれら顔画像を印刷する。音声データは又、２次元バーコードにおいて具現化することが可能であり、それ故、音声ファイルについての完全なスタンドアロン表現を提供することが可能である。

図１０ｂは、図１０ａの音声特徴抽出仕様６０２を有するＤＦＳ１０４に従って表示された文書１２０を示している。文書１２０は、“キーワード検索語”の注釈を又示すラジオプログラムのためのヘッダ１１０と、音声波形１１２と、音声波形１１２の下のタイムスタンプ１１４と、タイムラインに沿ってユーザ定義位置に表示されたマーカーとを含む。マーカーは、マーカーを付けられたラジオプログラムにおけるコンテンツを表すためにユーザにより設定されたテキスト情報７１４を含む。この場合、滝スト情報７１４は、音声コンテンツにおいて見つけられた特定の言葉である。更に、マーカーは、ユーザ選択可能識別子１１６とタイムスタンプ１１４とを含む。ユーザ選択可能識別子を選択することにより、ユーザは、検索語が用いられた音声コンテンツを聴くことができる。

図１１において、拍手イベントについての音声特徴抽出を有するラジオプログラムのためのタイムラインを示す文書１２０のグラフィック表現を示している。図１１ａのＤＦＳ１０４は、拍手検出が音声コンテンツに適用された“特徴抽出”フィールド７０２において示されている。音声特徴抽出仕様６０２は拍手検出タイムスタンプを含む。このようにして、ユーザは、拍手イベントが実施されたラジオプログラムにおける位置を検索し、そのような位置はタイムラインに沿ってマーカーが付けられる。

図１１ｂは、図１１ａの音声特徴抽出仕様６０２とＤＦＳ１０４に従って表示された文書１２０を示している。文書１２０は、“示された注釈イベント”の注釈を又示すラジオプログラムのためのヘッダ１１０と、音声波形１１２と、音声波形１１２の下のタイムスタンプ１１４と、タイム欄に沿ってユーザ定義位置に表示されたマーカーとを含む。代替として、システムは、例えば、笑い、大声での会話、ドアを閉める音等のような音声コンテンツにおいて他のイベントが存在するときにマーカーを付けることが可能である。これは、例えば、議論が会議において起こったポイントで、会議の記録を即座に走査するために用いられることが可能である。マーカーは、ユーザ選択可能識別子１１６及びタイムスタンプ１１４を含む。ユーザ選択可能識別子を選択することにより、ユーザは、拍手が起こった音声コンテンツを聴くことができる。ユーザ選択可能識別子は、ペーパー文書において印刷された２次元識別子（例えば、バーコード）に盛り込まれた音声を又はオフラインで記憶された音声データを参照することができる。

音声定位化技術は又、音声恩典津に適用されることが可能である。この例において、タイムライン表現は、記録がなされた部屋における場所を指す方向インジケータを含むことができる。これは、ユーザが、例えば、部屋の最南の角の人物、又はテーブルを横断してその人物に対向する人物が話しているときを判定し、タイムラインを即座に走査することを可能にする。これは、例えば、音声定位化を実行するために構成することができる複数のマイクロフォンの設置を有する一定の設定を適用することができる。又、インタビューを記録するプロにより用いられる記録器のような適切に設備される可搬型記録器と共にそれは用いられることができる。

図１２において、音楽イベントに対する音声特徴抽出を用いてラジオプログラムのタイムラインを示す文書１２０のグラフィック表現を示している。図１２ａのＤＦＳ１０４は、音楽検出が音声コンテンツに適用された“特徴抽出”フィ０ルド７０２において示されている。音声特徴抽出仕様６０２は音楽検出タイムスタンプを含む。それ故、ユーザは、音楽イベントが存在したラジオプログラムにおける位置であって、これらの位置がタイムラインに沿ってマーカー付けされている、位置を検索した。更に、“レイアウトタイプ”フィールド６３２は、半分に分割された２つの垂直方向のタイムラインを含むレイアウトタイプを示している。

図１２ｂは、図１２ａの音声特徴抽出試用０２とＤＦＳ１０４に従って表示された文書１２０を示している。文書１２０は、“示された音楽イベント”の注釈を又示すラジオプログラムのためのヘッダ１１０、音声波形１１２、音声波形１１２の近くのタイムスタンプ１１４及びタイムラインに沿ってユーザ定義位置に表示されたマーカーを含む。マーカーは、ユーザ選択可能識別子１１６とタイムスタンプ１１４とを含む。ユーザ選択可能識別子１１６を選択することにより、ユーザは、拍手が起こった音声コンテンツを聴くことができる。タイムラインは、２つの半分ずつに分割されたタイムラインであって、各々の半分は垂直方向に表示されているタイムラインと共にＤＦＳ１０４に示されているレイアウトタイプに従って表示されている。

マルチメディアペーパーは又、音声メールメッセージの表現を生成するために用いられることができる。ユーザは、例えば、発呼者の電話番号、インターネット検索エンジン（発呼者の名前、住所及び位置を示す地図をしばしば示すことができる）における電話番号を調べた結果及びメッセージの日時と持続時間等のような、音声メールメッセージの収集についての利用可能なメタデータの要約を生成することができる。メタ情報の各々のブロックは、ネットワークの遠隔地からの音声情報を検索するバーコードの隣に印刷されることが可能であり、又は、ペーパーから直接プレイされることが可能である２次元バーコードにおいて表示されることが可能であり、それ故、いずれかのオフデバイスアクセスに対する要求を未然に防ぐことが可能である。ペーパー文書は、ペーパー文書を検索し且つそれを加えることができる付加情報（例えば、インターネット検索エンジン情報）を提供することによりユーザに有用性を提供する。又、ペーパー文書自体は、その文書に関する音声メールメッセージについての注記を書き込む能力をユーザに提供する。

マルチメディアペーパーは又、日付、時間、持続時間、自動車番号、警官の名前（必要に応じて）を含む１つ又はそれ以上の公安（例えば、警察署、消防署等）無線のレコーディングについての利用可能なメタデータの要旨は、それらのレコーディングについてのオフライン表現を参照するバーコードと共にペーパーに印刷されることができる。又、音声データを直接符合化する２次元バーコードを用いることができる。このことは、ネットワーク接続を独立して使用されることができるスタンドアロン表現を提供する。メタ情報は記録された音声に適用される信号処理アルゴリズムにより計算されることができ、又は、無線で提供されるデジタルサイドチャネル情報（例えば、Ｍｏｔｏｒｏｌａデジタル無線情報）から計算されることが可能である。又、メタ情報は、無線発信器コンソールにおいてデジタル的に供給されることが可能である。このシステムは、無線ログを選択的に調べる必要がある管理者を支援することが可能であり、又は、公安の手法を観測することを希望する公衆を支援することが可能である。

マルチメディアペーパーは又、航空無線の表現の生成において使用されることができる。１つ又はそれ以上の航空無線の記録についての利用可能メタデータの要旨であって、特定の伝送がなされたときの飛行の日付、時間、持続時間、便名、出発地、目的地、現在位置を含む、要旨は、音声記録のオンラインフォームを指すバーコードと共にペーパーに印刷されることが可能である。メタ情報は、適切な装置が利用可能である場合、トランスポンダが返すモードＳから、直接、抽出されることができる。付加メタ情報は、リアルタイムに飛行の進行を追跡する種々のオンラインサービスから検索されることが可能である。音声記録に適用される発話認識は、オンラインデータへのリンクを計算するために用いられることが可能であるシンボリック情報を提供することが可能である。このことは、モードＳへの直接的リンクに対する要求を未然に防ぎ、ＦＡＡ装置にアクセスすることなく、このシステムを人が利用可能であるようにする。

本発明について特定の好適な実施形態を参照して説明したが、当業者は、種々の改良が可能であることを認識するであろう。好適な実施形態に対する変形及び改良は、同時提出の請求の範囲によってのみ規定される本発明により提供される。

マルチメディアデータの表現を生成するためのシステムのグロック図である。図１のシステムの一実施形態の例示としてのアーキテクチャについてのブロック図である。音声ペーパー生成システムの動作方法のフロー図である。マルチメディアコンテンツのフォーマット化におけるフォーマット化モジュールの動作方法のフロー図である。マルチメディア表現のためのバーコードを生成する方法のフロー図である。例示としての文書フォーマット仕様と音声特徴抽出の表現である。図６ａにおいて表した仕様に基づいて生成されたマルチメディア表現のグラフィック表現である。例示としての音楽のソロの抽出を含む音声特徴抽出と文書フォーマット仕様の表現である。図７ａにおいて表した仕様に基づいて生成されたマルチメディア表現のグラフィック表現である。例示としてのラジオプログラムのための音声特徴抽出と文書フォーマット仕様の表現である。図８ａにおいて表した仕様に基づいて生成されたマルチメディア表現のグラフィック表現である。例示としてのキーワードを含む音声特徴抽出と文書フォーマット仕様の表現である。図９ａにおいて表した仕様に基づいて生成されたマルチメディア表現のグラフィック表現である。例示としての話者認識及び言葉検索のための音声特徴抽出と文書フォーマット仕様の表現である。図１０ａにおいて表した仕様に基づいて生成されたマルチメディア表現のグラフィック表現である。例示としての拍手検出のための音声特徴抽出と文書フォーマット仕様の表現である。図１１ａにおいて表した仕様に基づいて生成されたマルチメディア表現のグラフィック表現である。例示としての音楽検出のための音声特徴抽出と文書フォーマット仕様の表現である。図１２ａにおいて表した仕様に基づいて生成されたマルチメディア表現のグラフィック表現である。

符号の説明

１００システム
１０２プリンタ
１０３従来のプリンタ
１０４文書フォーマット仕様（ＤＦＳ）
１０６処理ロジック
１０８音声ペーパー生成システム（ＡＰＰＳ）
１１０ヘッダ
１１２音声波形
１１４タイムスタンプマーカー
１１６バーコード識別子
１１８テキスト情報
１２０マルチメディア文書
２００システム
２０２特徴抽出モジュール
２０４フォーマット化モジュール
２０６データポート
２０８接続
２１０接続
６０２音声特徴抽出仕様
６０４ “タイプ”フィールド
６０６ “特徴”フィールド
６０８ “識別子”フィールド
６１０ “タイトル”フィールド
６１２ “アーチスト”フィールド
６１４ “コレクション”フィールド
６１６ “発行者”フィールド
６１８ “発行日付”フィールド
６２０ “開始時間”フィールド
６２２ “終了時間”フィールド
６２４ “グラフィック表現”フィールド
６２８ “マーカータイプ”フィールド
６３０ “マーカー頻度”フィールド
６３２ “レイアウトタイプ”フィールド
６３４ “レイアウトページ”フィールド
６３６ “レイアウトマーカー配置”フィールド
６３８ “レイアウトメタデータ配置”フィールド
７０２ “特徴抽出”フィールド
７０４ “マーカータイプ１”フィールド
７０６ “マーカータイプ２”フィールド
７０８ “マーカー２頻度”フィールド
７１０ “レイアウトマーカー１配置”フィールド
７１２ “レイアウトマーカー２配置”フィールド
７１４テキスト表示
８０２ “注釈”フィールド
９０２ “マーカー”フィールド

Claims

時間ベースのメディアの表現を生成するためのシステムであって：
メディアコンテンツから特徴を抽出するための特徴抽出モジュール；及び
前記システムにより生成されたメディア表現をフォーマット化するためのフォーマット化モジュールであって、前記メディア表現に特徴抽出情報を適用するために前記特徴抽出モジュールに通信可能であるように結合され、前記フォーマット化モジュールは表現仕様に従って前記メディア表現をフォーマット化する、フォーマット化モジュール；
から構成されることを特徴とするシステム。
請求項１に記載のシステムであって、前記特徴抽出モジュールは、メディアコンテンツにおける特徴を認識するためのコンテンツ認識ソフトウェアから更に構成される、ことを特徴とするシステム。
請求項１に記載のシステムであって、拡張出力装置ドライバインタフェースを制御するための処理ロジックから更に構成される、ことを特徴とするシステム。
請求項１に記載のシステムであって、拡張出力装置コンソールを制御するための処理ロジックから更に構成される、ことを特徴とするシステム。
請求項１に記載のシステムであって、前記メディア表現はデジタルフォーマットにおいて生成される、ことを特徴とするシステム。
請求項１に記載のシステムであって、前記メディア表現はペーパーフォーマットにおいて生成される、ことを特徴とするシステム。
請求項１に記載のシステムであって、前記メディア表現は、ユーザがメディアコンテンツにアクセスするようにする少なくとも１つのユーザ選択可能識別子を含む、ことを特徴とするシステム。
請求項７に記載のシステムであって、前記の少なくとも１つのユーザ選択可能識別子は、メディア表現について印刷された少なくとも１つのバーコードから構成される、ことを特徴とするシステム。
請求項７に記載のシステムであって、前記の少なくとも１つのユーザ選択可能識別子は、対応するメディアコンテンツをプレイするように選択されることができる、ことを特徴とするシステム。
請求項８に記載のシステムであって、前記の少なくとも１つのバーコードは、表示装置において対応するメディアコンテンツをプレイするために前記バーコードを走査することによりメディア表現において選択されることができる、ことを特徴とするシステム。
請求項１に記載のシステムであって、前記メディア表現は、タイムラインに沿ってメディアコンテンツのグラフィック表現を含む、ことを特徴とするシステム。
請求項１１に記載のシステムであって、音声コンテンツのグラフィック表現は音声波形タイムラインで表示される、ことを特徴とするシステム。
請求項１１に記載のシステムであって、前記タイムラインは、メディアコンテンツのユーザ選択セグメントに対応する長さに沿ってマーカーを含む、ことを特徴とするシステム。
請求項１１に記載のシステムであって、前記タイムラインは音声コンテンツのセグメントに対応する長さに沿ってマーカーを含み、前記セグメントはメディアコンテンツにおける特定の特徴の検索により定義される、ことを特徴とするシステム。
請求項１１に記載のシステムであって、前記タイムラインはメディアコンテンツのセグメントに対応する長さに沿ってマーカーを含み、少なくとも１つの前記マーカーは、メディアコンテンツのセグメントを表すテキスト情報を有する、ことを特徴とするシステム。
請求項１１に記載のシステムであって、前記タイムラインはメディアコンテンツのセグメントに対応する長さに沿ってマーカーを含み、少なくとも１つの前記マーカーは、メディアコンテンツのセグメントを表すタイムスタンプ情報を有する、ことを特徴とするシステム。
請求項１に記載のシステムであって、前記メディア表現は前記メディアコンテンツを表すヘッダを含む、ことを特徴とするシステム。
請求項１に記載のシステムであって、前記メディア表現は、データ構造に含まれるフォーマット仕様に従って生成される、ことを特徴とするシステム。
請求項１８に記載のシステムであって、前記データ構造に含まれる前記フォーマット仕様は、メディア表現について印刷されたグラフィック表現のフォーマットを指定する多くのユーザ定義可能フィールドから構成される、ことを特徴とするシステム。
請求項１８に記載のシステムであって、前記データ構造に含まれる前記フォーマット仕様は、メディア表現のレイアウトを指定する多くのユーザ定義可能フィールドから構成される、ことを特徴とするシステム。
請求項１８に記載のシステムであって、前記データ構造に含まれる前記フォーマット仕様は、メディア表現に含まれるメディアコンテンツマーカーを指定する多くのユーザ定義可能フィールドから構成される、ことを特徴とするシステム。
請求項２０に記載のシステムであって、前記データ構造に含まれる前記フォーマット仕様は、前記メディアコンテンツに適用される特徴抽出を指定する多くのユーザ定義可能フィールドから構成される、ことを特徴とするシステム。
請求項１に記載のシステムであって、メディア表現を生成するための拡張出力装置であって、メディア表現の生成のための命令を受けるためのフォーマット化モジュールに通信可能であるように結合されている、拡張出力装置から更に構成される、ことを特徴とするシステム。
請求項２３に記載のシステムであって、前記拡張出力装置はペーパーにメディア表現を印刷するためのプリンタを含む、ことを特徴とするシステム。
時間ベースのメディアの表現を生成するための方法であって：
メディアコンテンツから特徴を抽出する段階；及び
表現仕様に従って表現をフォーマット化する段階であって、特徴抽出情報を適用する手順を含む、段階；
から構成されることを特徴とする方法。
請求項２５に記載の方法であって、メディアコンテンツの表現を生成する段階から更に構成される、ことを特徴とする方法。
請求項２５に記載の方法であって、メディアコンテンツの特徴を抽出する段階は、メディアデータにおいてキーワード検索を実行する手順から更に構成される、ことを特徴とする方法。
請求項２５に記載の方法であって、メディアコンテンツの特徴を抽出する段階は、メディアデータにおける発話認識を実行する手順から更に構成される、ことを特徴とする方法。
請求項２５に記載の方法であって、メディアコンテンツの特徴を抽出する段階は、メディアデータにおけるイベント検出を実行する手順から更に構成される、ことを特徴とする方法
請求項２６に記載の方法であって、表現を生成する段階は、タイムラインに沿ってメディアコンテンツのグラフィック表現を生成する手順から更に構成される、ことを特徴とする方法。
請求項３０に記載の方法であって、グラフィック表現を生成する段階は、タイムラインに沿って音声コンテンツ波形を生成する手順から更に構成される、ことを特徴とする方法。
請求項２６に記載の方法であって、表現を生成する段階は、メユーザがディアコンテンツにアクセスするようにするメディアコンテンツにおいて少なくとも１つのユーザ選択可能識別子を生成する手順から更に構成される、ことを特徴とする方法。
請求項３２に記載の方法であって、前記の少なくとも１つのユーザ選択可能識別子を生成する手順は、メディア表現について印刷される少なくとも１つのバーコードを生成する手順から更に構成される、ことを特徴とする方法。
請求項３３に記載の方法であって、表示装置において対応するメディアコンテンツをプレイするためにバーコードを走査することによりメディア表現において少なくとも１つのユーザ選択可能識別子を選択する手順から更に構成される、ことを特徴とする方法。
請求項３０に記載の方法であって、タイムラインに沿ってグラフィック表現を生成する手順は、タイムラインに沿ってマーカーを生成する段であって、前記マーカーはユーザ選択メディアコンテンツに対応する、段から更に構成される、ことを特徴とする方法。
請求項３０に記載の方法であって、タイムラインに沿ってグラフィック表現を生成する手順は、タイムラインに沿ってマーカーを生成する段であって、少なくとも１つのマーカーはメディアコンテンツから抽出された特徴に対応する、段から更に構成される、ことを特徴とする方法。
請求項３０に記載の方法であって、タイムラインに沿ってグラフィック表現を生成する手順は、タイムラインに沿ってマーカーを生成する段であって、少なくとも１つのマーカーはメディアコンテンツを表すテキスト情報を含む、段から更に構成される、ことを特徴とする方法。
請求項３０に記載の方法であって、タイムラインに沿ってグラフィック表現を生成する手順は、タイムラインに沿ってマーカーを生成する段であって、少なくとも１つのマーカーはメディアコンテンツを表すタイムスタンプ情報を含む、段から更に構成される、ことを特徴とする方法。
請求項２６に記載の方法であって、表現を生成する段階は、メディアコンテンツを表すヘッダを生成する手順から更に構成される、ことを特徴とする方法。
請求項２６に記載の方法であって、表現を生成する段階は、デジタルフォーマットで表現を生成する手順から更に構成される、ことを特徴とする方法。
請求項２６に記載の方法であって、表現を生成する段階は、ペーパーフォーマットで表現を印刷する手順から更に構成される、ことを特徴とする方法。
請求項２５に記載の方法であって、表現仕様に従って表現をフォーマット化する段階は、フォーマット仕様を有するデータ構造を用いてメディア表現のフォーマットを定義する手順から更に構成される、ことを特徴とする方法。
請求項２５に記載の方法であって、音声コンテンツと表現仕様とを入力する段階から更に構成される、ことを特徴とする方法。
請求項３３に記載の方法であって、少なくとも１つのバーコードを生成する手順は、識別子情報を含むバーコード画像をレンダリングするためにバーコード生成アルゴリズムを適用する段から更に構成される、ことを特徴とする方法。
請求項３３に記載の方法であって、少なくとも１つのバーコードを生成する手順は、タイムスタンプ情報を含むバーコード画像をレンダリングするためにバーコード生成アルゴリズムを適用する段から更に構成される、ことを特徴とする方法。