時間ベースのメディアの表現を生成するためのシステム及び方法について説明する。本発明の実施形態に従って、プリンタは、特徴抽出情報を組み込むことができる時間ベースのメディアの表現を生成する。更に詳細には、プリンタは、マルチメディア情報についての視覚的表現を生成する文書を生成するために、及びマルチメディア記録におけるポイントへの任意アクセスを可能にするインデックスを生成するために、フォーマット仕様、特徴抽出及びフォーマット化アルゴリズムを組み込む。
本発明の目的のために、用語“メディア”、“マルチメディア”、“マルチメディアコンテンツ”、“マルチメディアデータ”又は“マルチメディア情報”は、テキスト情報、グラフィック情報、アニメーション情報、音声(オーディオ)情報、映像情報、スライド情報、ホワイトボード画像情報及び他のタイプの情報のいずれか1つ又はそれらの組み合わせをいう。例えば、テレビジョン放送の映像記録は、映像情報と音声情報とから構成されることが可能である。特定の例においては、映像記録は又、クローズドキャプションド(CC:closed captioned)テキスト情報から構成され、そのCCテキスト情報は映像情報に関連する要素から構成され、多くの場合、映像記録の音声部分に含まれる発話の正確な表現である。マルチメディア情報は又、1つ又はそれ以上のオブジェクトから構成される情報を参照するために用いられ、それらオブジェクトは異なるタイプの情報を含む。例えば、マルチメディア情報に含まれるマルチメディアオブジェクトは、テキスト情報、グラフィック情報、アニメーション情報、音声(オーディオ)情報、映像情報、スライド情報、ホワイトボード画像情報及び他のタイプの情報から構成されることが可能である。
本発明の目的のために、用語“プリント”又は“プリンティング”は、あるタイプの媒体への印刷をいうとき、プリンティング、書き込み、描画、インプリンティング、エンボシング、デジタルフォーマットの生成及び他のタイプのデータ表現の生成を含むことを意図している。又、本発明の目的のために、システムにより生成される出力は、“メディア表現”、“マルチメディア文書”、“マルチメディア表現”、“文書”、“ペーパー文書”若しくは“映像ペーパー”又は“オーディオペーパー”をいう。単語文書及びペーパーが以上の用語で呼ばれる一方、本発明におけるシステムの出力は、例えば、ペーパー媒体のような物理的媒体等に限定されない。それに代えて、上記の用語は、ある有形の媒体に固定されるいずれの出力をいうことができる。一部の実施形態においては、本発明のシステムの出力は、物理的ペーパー文書においてプリントされたマルチメディアコンテンツの表現とすることができる。ペーパーフォーマットにおいて、マルチメディア文書は、ペーパーの高解像度と可搬性を利用し、マルチメディア情報の読み取り可能な表現を提供する。本発明の教示するところに従って、マルチメディア文書は又、マルチメディア情報を選択し、検索し、それにアクセスすることが可能である。他の実施形態においては、システムは、デジタルフォーマット又はある他の有形の媒体に出力することができる。更に、本発明の出力については、デジタルフォーマットにおけるマルチメディア情報を記憶するいずれの記憶ユニット(例えば、ファイル)を引き合いに出すことができる。マルチメディア情報を記憶するために、種々の異なるフォーマットを用いることが可能である。それらのフォーマットは、MPEGフォーマット(例えば、MPEG1、MPEG2、MPEG4、MPEG7等)、MP3フォーマット、SMILフォーマット、HTML+TIMEフォーマット、WMF(Windows(登録商標) Media Format)、RM(Real Media)フォーマット、Quicktimeフォーマット、Shockwaveフォーマット、種々のストリーミングメディアフォーマット、エンジニアリング共同体、専用及び慣用フォーマット並びに他のフォーマットにより発達したフォーマットを含む。
“1つの実施形態”又は“実施形態”の明確化における基準は、実施形態に関連して述べられる具体的な特徴、構成、特性が本発明の少なくとも1つの実施形態に含まれることを意味している。明細書の種々の部分における
“1つの実施形態において” との表現がある場合、必ずしも、全てが同じ実施形態を参照しない。
下の説明においては、説明目的のために、本発明を理解することを通じて提供されるように、多くの具体的な詳細例を示している。しかしながら、それらの具体的な詳細例がなくとも、本発明を実施ですることができることは、当業者には理解できるであろう。他の例においては、本発明を分かり難くすることを回避するように、ブロック図の方式で構造及び装置を示している。例えば、本発明について、オーディオコンテンツを主に参照して説明し、プリンタにより生成される表現は、しばしば、音声ペーパーと呼ぶこととする。しかしながら、たとえ、以下の説明が音声コンテンツ及び音声ペーパーにのみ関連する特徴についてのものであっても、本発明の特徴は、いずれのタイプのメディアコンテンツに適用することができ、紙ベースのフォーマット以外のフォーマットにおけるメディア表現を対象とすることができる。
ここで、図1を参照するに、時間ベースのメディアの表現を生成するための例示としてのシステム100を示している。この実施形態において、マルチメディア表現を生成するための拡張出力装置またはプリンタ102を示している。プリンタ102は、種々の構成要素から構成され、従来型のプリンタ103、音声ペーパー生成システム(APPS)108及びプリンタコンソールのため及びプリンタドライバインタフェースのための処理ロジック106を含んでいる。
プリンタ102は、音声データのようなマルチメディアデータを受信し、このコンテンツは、システム100にアクセス可能であるマルチメディア文書に記憶されることが可能である。マルチメディアコンテンツは、システム100に直接記憶されることが可能である、又はシステム100によりアクセスされることができる外部の記憶装置又はサーバ(図示せず)に記憶される情報であることが可能である。他の実施形態においては、眼ル地メディア文書にアクセスすることに代えて、システム100は、マルチメディア情報ソースからマルチメディア情報のストリーム(例えば、ストリーミングメディア信号、ケーブル信号等)を受信することが可能である。システム100にマルチメディア情報を提供することができるソースの例としては、テレビジョン、テレビジョン放送受信器、ケーブル受信器、映像受信器、デジタル映像受信器、携帯デジタル端末(PDA)等がある。例えば、マルチメディア情報のソースは、マルチメディア放送信号を受信し且つシステム100にその信号を送信するように構成されるラジオとして具現化されることが可能である。この例においては、情報ソースは、システム100にライブのラジオ放送供給情報を供給するラジオ受信器/アンテナであることが可能である。情報ソースは又、システム100に記録された映像及び/又は音声ストリームを供給する、例えば、ビデオレコーダ/プレーヤ、DVDプレーヤ、CDプレーヤ等の装置であることが可能である。代替の実施形態においては、情報のソースは、システム100に捕捉されたプレゼンテーション又はミーティングの情報のストリームを供給することができる、プレゼンテーション又はミーティングレコーダであることが可能である。更に、マルチメディア情報のソースは、外部ソースからのマルチメディア情報を捕捉又は受信し、次いで、更なる処理のためにシステム100に捕捉されたマルチメディア情報を供給する(例えば、無線リンクにより)ように構成された受信器(例えば、衛星放送用アンテナ又はケーブル受信器)であることが可能である。
マルチメディアコンテンツは、例えば、RealPlayer(登録商標)、Microsoft Windows(登録商標) Media Player等の専用の又はカスタマイズされたマルチメディアプレーヤから発せられることができる。代替の実施形態においては、システム100は、マルチメディア情報ソースにより受信されるマルチメディア情報信号を途中で捕らえるように構成されることが可能である。システム100は、マルチメディア情報ソースからマルチメディア情報を直接受信することが可能である、又は、それに代えて、通信ネットワーク(図示せず)により情報を受信することが可能である。
再び、プリンタ102の構成要素を参照するに、図1においては、プリンタ102の従来型プリンタ103の構成要素を示している。プリンタ102の従来型プリンタ103の構成要素は、例えば、インクジェットプリンタ、レーザプリンタまたは他の印刷装置の一部または全てを含むことができる。従って、従来型プリンタ102は、ペーパー文書を印刷するための機能を有しており、又、ファックス装置、コピー装置及び物理的文書のための他の装置の能力を有することが可能である。印刷システムについての更なる情報は、“Networked Printing System Having Embedded Functionality for Printing Time−Based Media”と題され、2004年3月30日に、Hart等により出願された米国特許出願公開第10/814,948号明細書において提供されており、この文献の援用によって発明の説明の一部を代替する。
図1においては又、本発明のこの実施形態における音声ペーパー生成システム(APPS)を示している。このシステムは音声ペーパー生成システムと呼ばれるが、それに代えて、他の実施形態における映像ペーパー生成システム又はいずれの他のタイプのマルチメディア生成システム
であってもよい。更に、APPS108は、そのタイトルにおいて“ペーパー”の言葉で呼んでいるが、APPS108は又、デジタルフォーマット及び他のタイプのフォーマットにおけるマルチメディア表現を生成するために用いられることができる。
APPS108は、プリンタ102の一部であるとして図1に示されている。しかしながら、他の実施形態においては、APPS108は、例えば、プリンタ102に接続されることができるパーソナルコンピュータ(PC)(図示せず)に遠隔的に位置付けられる。APPS108は、特徴抽出能力及びフォーマット化能力を有する。音声ファイルは、入力技術及び特徴抽出技術がマルチメディアコンテンツの表現(即ち、波形の状態の音声コンテンツの表現)を生成するために適用されるとき、APPS108に入力される。表現または文書120は、特徴抽出の間にマルチメディアコンテンツにおいて認識される特定の特徴のためのマーカーを含むことができる。例えば、表現120は、音声タイムラインに沿って、拍手が起こる時間毎に又は音楽トラックにおけるサックス奏者のソロ演奏がある時間毎に対するマーカーを有することが可能である。適用される特徴抽出技術は、ユーザにより定義されることが可能である、又は、それに代えて、デフォルトプリンタ102設定により設定されることが可能である。APPS108のフォーマット化機能は、特徴抽出結果を用い、文書フォーマット仕様(DFS)に従ったフォーマット化を適用する。
一部の実施形態においては、ユーザは、DFS104に提供されるフィールドに情報を入力することにより生成される文書120に関連してフォーマット化好みを設定することができる。一部の実施形態においては、ユーザは、文書フォーマット及びレイアウト、フォントタイプ及びサイズ、各々の行に表示される情報、ヘッダに表示される情報、スケジュールカラムのサイズ及び位置、フォントの色、行間隔、行当たりの文字数、ボールディング及び拡大縮小技術、文書が印刷される言語、紙のサイズ、紙の種類等に関する好みを設定することができる。例えば、ユーザは、表示されるマルチメディアコンテンツの名前を表す、大きいボールドフォントのヘッダを含むマルチメディア文書を有するように選択することが可能であり、ユーザは、ページ当たり表示されるマルチメディアコンテンツのグラフィク表現の配列を選択することができる。
DFS104は、音声データに適用される特徴抽出と出力文書120を生成するために用いられるフォーマットガイドラインとを決定する。DFS104は、PC(図示せず)におけるプリンタドライバダイアログインタフェースのような外部のアプリケーションにより供給されることができるデータ構造であり、プリンタのコンソール(図示せず)におけるAPPS108と対話することにより対話的に決定されることができる。DFS104はマルチメディアデータの表現を表す。DFS104は、ユーザに対して表示されるユーザインタフェースを格納するために用いられ、ユーザにフォーマット化オプションを与える。DFS104は、マルチメディアデータを適用されることができる、ユーザに対して提供される特徴抽出オプションを決定する。DFS104は又、出力文書を生成するために用いられるフォーマットガイドラインを決定する。
DFS104は、音声コンテンツ、音声コンテンツの構成者などのタイトルについての情報のような、音声ファイルについてのメタデータ情報を含むことができる。DFS104は又、セグメントの開始時間及び終了時間(例えば、音声記録の開始時間及び終了時間)及びタイムラインに沿って表示されることができるマルチメディアデータノグラフィック表示(例えば、時間に対する音声信号の振幅を示す波形)のための仕様を含むことができる。DFS104は、タイムラインに沿って表示されることが可能である各々のタイムスタンプ(即ち、バーコード、RFIDタグ、URL又はマルチメディアデータを検索することができる位置についてのある他の表示)のためのメタデータ及びタイムスタンプマーカーに対する仕様を更に含むことができる。
図1に示す実施形態において、プリンタは、プリンタコンソール及び印刷ドライバインタフェースに対する処理ロジック106から更に構成される。処理ロジック106は、印刷ドライバダイアログインタフェース(図示せず)を介してユーザと対話する。例えば、処理ロジック106は、マルチメディアコンテンツが祭りメディア表現120の状態で表示されるフォーマット又はマルチメディアコンテンツの処理のような、特定のプリンタの動作をユーザが制御することを可能にするユーザインタフェースの表示を管理する。又、ユーザインタフェースの機能はウェブインタフェースにより提供されることができ、このウェブインタフェースによるフォーマット化イシューのようなプリンタの動作をユーザが管理することを可能にする。更に、処理ロジック106は、音声ペーパーに紙または電子フォーマットを戻すことができる。例えば、一部の実施形態においては、ユーザは、表現が印刷されるフォーマットを選択することができる。他の実施形態においては、プリンタ102は、表現のフォーマットに関してデフォルト設定素自動的に適用する。
プリンタ102により生成されたマルチメディア文書120は種々のフォーマットから構成されることができる。例えば、マルチメディアフォーマット120は、図1に示す方式の音声ペーパー文書120のようなペーパー文書であることが可能である。プリンタ102により生成されるマルチメディア文書120は又、デジタルメディアに記憶されることができる。デジタルメディア書き込みハードウェアは、例えば、ネットワークインタフェースカード、DVDライタ、セキュアデジタル(SD)ライタ、CDライタ等を含むことができる。マルチメディアコンテンツは、例えば、フラッシュ媒体、DVD,CD等のようなデジタル媒体に記憶されることができる。
マルチメディアコンテンツ120は、多くの異なるタイプのレイアウトを有することができ、種々のタイプの情報を表示することができる。図1は、音声コンテンツを表示する音声ペーパー文書120の例を提供しているが、他の実施形態においては、文書は、映像コンテンツを表示する映像ペーパー文書でることが可能である。映像ペーパー文書の生成についての更なる情報は映像ペーパーアプリケーションにおいて提供され、それらアプリケーションの各々については、そのアプリケーションの援用によって発明の説明の一部を代替する。
図1の例において、音声ペーパー文書120は音声情報の音声波形112表示を示している。レイアウト及びフォーマット情報は、音声記録から抽出される音声コンテンツの長さ、メディアにおける音声波形112の配列及び他の情報を指定する。音声情報に対して、プリンタ102は、マルチメディア情報の特定なセグメントに対する音声の顕著な特徴を捕捉するセグメント(又は情報を与えるフレーム)を抽出することができる。更に、上記のように、プリンタ102は、特徴抽出能力(例えば、音声イベント検出等)を含むことが可能であり、例えば、特定の話者、音楽、笑い声又は叫び声等のような興味のあるアイテムについての音声セグメントにおいてユーザが検索することを可能にする。生成された文書120は、1つの音声波形112を表示することができる、又は2つ以上の音声波形に表示される音声コンテンツを分離することができる。図1における音声波形112は垂直方向に表示されているが、他の実施形態においては、音声波形112は他の配置に表示されることができる。
更に、図1の音声波形112は、音声波形112に対して表示される音声コンテンツの開始及び終了にマーカーを付けるタイムスタンプマーカー114を有している。代替として、音声波形112は、全長に沿って多くのタイムスタンプマーカー114(即ち、マーカーのユーザ定義位置)を有することができる、又は、文書120はタイムスタンプマーカー114を全く有しないようにすることができる。
図1の音声ペーパー120の実施形態において、文書120はヘッダ110を含むことができる。ヘッダ110は、文書120に含まれる音声コンテンツについての一般情報を提供する。例えば、ヘッダ110は、文書120に関して表示される音声コンテンツのタイプ(例えば、“会議”)、音声コンテンツの記録の日付(例えば、2003年11月21日)そして音声コンテンツが記録された場所(例えば、RII会議室)についての情報を含むことが可能である。
本発明の他の実施形態においては、ユーザ選択可能識別子116(例えば、バーコード又はテキストタグ)は音声波形112に対応している。図1の例においては、ユーザ選択可能識別子116は、ユーザ定義位置において音声波形112の右側に表示されているが、その代わりに、そのページのいずれかの位置に表示することができる。それらの識別子116は、インデックスマーカーとして機能し、ユーザが対応する音声コンテンツにアクセスすることを可能にしている。例えば、紙に印刷された文書120において、ユーザは、そのページのバーコード識別子116を物理的に走査することができ、このしけ別氏は、音声波形112において表示されている音声コンテンツにおける音声セグメントを指し示す。ユーザは、携帯電話又は携帯デジタル端末(PDA)のような、組み込まれたバーコードスキャナを有するいずれかのタイプの装置(図示せず)を用いて、ペーパー文書120における適当なバーコードを走査することによりユーザ選択可能識別子116を選択する。
音声ファイルは、いつ文書が生成されたかを特定する技術(例えば、バーコード走査)に任意アクセスすることを可能にする装置においてプレイされることができる。例えば、
バーコードを含む文書は、バーコードリーダと所定ポイントにおいて開始する音声ファイルをプレイする命令にバーコードを変換することができるソフトウェアとを有する携帯電話においてプレイされることができる。それ故、ユーザ選択可能識別子116は、ユーザがマルチメディア文書120において表示されるマルチメディアコンテンツにアクセスする又はそれを検索することを可能にするためのインタフェースとして機能する。
一例として、図1のバーコードを走査することにより、ユーザは、音声セグメントが表示装置(例えば、テレビジョン、PCモニタ、携帯電話のスクリーン、PDA等)においてマーカーを付けられた位置からプレイを開始するようにすることができる。マルチメディア文書120は、例えば、記録された部分がプレイされている間に、PDAが連続音を立てるようにすることにより、触覚的フィードバックさえ提供することができる。他の例として、ペーパーマルチメディア文書120は又、バーコードマーカーに付加してまたはそれに代えて含む数字識別子を有することができ、ユーザは、システム100がプリンタ表示または他の装置における音声セグメントをプレイするように命令するプリンタまたは外部装置におけるキーパッド又はタッチパッド(図示せず)にそれらの数字をタイプすることができる。又、図1に示している音声ペーパー文書120がデジタルフォーマットである場合、システム100は、デジタル文書から直接プレイされる音声セグメントをユーザが選択することが可能であるように(即ち、プレイボタンを選択することによりマウス又は他の選択装置を用いて音声波形112における位置をチェックすることにより)、システム100を構成することが可能である。
プリンタ102は、ユーザ選択可能識別子116に対応するマルチメディア情報を検索することができる。選択装置(即ち、数字識別子の状態で入力するためのバーコードスキャナ又はキーパッドを有する装置)からプリンタに通信される信号は、ユーザにより選択される音声セグメント、プレイされる音声コンテンツの場所、セグメントが選択されるようになっているマルチメディアペーパー文書、好みに及び/又はユーザにより選択された1つ又はそれ以上のマルチメディア表示装置(例えば、携帯電話)関する情報、要求されたマルチメディア情報の検索を容易化するための他の情報等を識別することが可能である。例えば、システム100は、PC(図示せず)において記憶された音声ファイルにアクセスすることができ、システムはユーザの命令に関してこの音声コンテンツをプレイすることができる。
図1の例は、文書120における音声波形112に沿ってマーカーを付けられた位置の隣のテキスト情報118を更に示している。この例において、テキスト情報118は、音声波形112に沿って、マーカーを付けられた位置に対応する会話のトランスクリプトの部分を含んでいる。このようにして、ユーザ選択可能識別子116を選択することにより、ユーザは、音声コンテンツがユーザ選択可能識別子116に対応するテキスト情報118の開始においてプレイを開始するようにすることができる。種々の他のタイプのテキスト情報118は又、会話の要旨、話者の名前等のような、文書120における音声波形112タイムラインに沿って表示されることができる。
システム100により生成されたマルチメディア文書120は、多くの異なる方法において使用されることができる。例えば、文書120は、ユーザに、興味をもたれている特定の音声コンテンツを検索することにより音声データを視覚的に調べる従来の方法を提供し、このような選択されたコンテンツに関するテキストとマーカーを提供し、ユーザが音声コンテンツにアクセスし且つそれをプレイするインタフェースを提供する。又、このタイプのマルチメディア文書120に関して、多くの変形が存在する。例えば、ユーザは、両面映像又は音声ペーパーを印刷することができる。この例においては、ユーザは、文書の両面にインクを供給することができるプリンタにおいてマルチメディア文書120を印刷する。オリジナルの音声又は映像ペーパーフォーマットを、文書の前面に印刷することができる。背面には、前面において表現されているデータについての2次元のバーコード表示を示すことができる。このフォーマットは、ファイリングキャビネットに格納することが可能であるスタンドアロンペーパーベース表現を提供し、それに続くマルチメディアコンテンツの検索は、オフペーパー表現への参照を必要としない。文書の前面において印刷された画像から近似のデジタルデータを抽出し、2次元バーコードにおいて符合化されるような高周波数成分でその近似のデジタルデータを補う、組み合わせの技術を用いることが可能である。
他の例として、ユーザは、孔の開いた映像又は音声ペーパーのような有孔マルチメディア文書を作成することができる。例えば、ユーザは、紙の異なる有孔ストリップに各々印刷されたシーンにセグメント化された映像ファイルを印刷することができる。各々のストリップは、映像コンテンツからの少なくとも1つの映像フレームと、映像データのオンラインリポジトリを参照する少なくとも1つのバーコードとを含むことができる。例えば、ストリップはノートに貼り付け、掲示板に貼り出すことが可能である。有孔音声ペーパーの場合、ユーザは、話者、音声定位化、音声イベント検出等によりセグメント化された音声ファイルを印刷することができ、これらのセグメント化タイプの各々を紙の異なる有孔ストリップに印刷することができる。例えば、1つのストリップは、会議中に人が議論していたときの例を示すバーコードを含むことが可能である。各々のストリップは、音声データのオンラインリポジトリを参照する少なくとも1つのバーコードを含むことができる。しかしながら、マルチメディアデータは制限されることができるため、マルチメディアに対する完全スタンドアロン表現を提供するために2次元バーコードを用いることが可能である。これらのストリップは切り取られ、記録のほんの小さな断片を思い出す必要がある人又は音声の記録を編集する必要のある人により容易に持ち歩くことが可能である。上記のように、ストリップは又、ノートに貼り付け、掲示板に貼り出すことが可能である。
他の例として、ユーザは、マルチメディア文書120を用いて、DVD又はCDカバーシートを作成することができる。この例においては、ユーザは、この印刷技術を用いて、DVD又はCDを印刷することができる。更に、プリンタ102は、シーンを参照するバーコード及び映像ファイルからセグメント化されたシーンからの映像フレームを示すカバーシートを自動的に生成するようにプログラムされることができる。このようなカバーシートを、例えば、プリンタ102における特定のトレイに挿入することが可能である小さい紙材に印刷することができる。又、カバーシートは標準的な紙材に印刷し、典型的なDVDホルダに適合するように、紙をどのように折り畳むべきかを示す折り畳みのマーカーを付けることができる。類似するカバーシートを、音声コンテンツのマーカーが付けられた部分を調べるバーコード及びユーザ選択コンテンツに対するマーカーを表す音声波形122タイムラインを表示する音楽CDに対して印刷することができる。マルチメディア情報の印刷可能表現を生成することについての更なる情報は、上で参照した、映像ペーパーアプリケーションにおいて提供されている。
ここで、図2を参照するに、本発明の実施形態のアーキテクチャを示している。この実施形態において、システム200は、システム200に入力される音声ファイルをしょりすることができるAPPS108を含む。APPS108はプリンタ102に位置付けられることができ、又はAPPS108はデータ処理システム(図示せず)に位置付けられることができ、それは、PC,ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、メインフレーム、キオスク、標準的リモートコントロール、PDA、ゲーム制御器、携帯電話のような津真装置、アプリケーションサーバ又はその他のデータシステムを含むことが可能である。又、APPS108は、データ処理システムに結合されるプリンタ102に位置付けられることが可能である。
図2の例においては、APPS108は、構成要素としての特徴抽出モジュール202及びフォーマット化モジュール204から構成される。上記のように、システム200は、音声ファイルのようなマルチメディア情報にアクセスする、又はそれを受信する。そのファイルはシステム200において記憶されることができ、又はプリンタに結合されるデータ処理システム(図示せず)において記憶されることができる。図2の実施形態においては、ユーザは、ユーザがマルチメディア情報を再生する、記憶する、インデックス付けする、編集する又は操作することを可能にする種々の標準的マルチメディアプレイツールのいずれか1つを用いて、音声ファイルを聴くことができる。例として、専用の又はカスタマイズされたマルチメディアプレーヤ(例えば、RealNetworks製のRealPlayer(登録商標)、Microsoft社製のMicrosoft Windows(登録商標) Media Player、Apple社製のQuickTime(登録商標)Player、Shockwaveマルチメディアプレーヤ、その他)と、映像プレーヤ、テレビジョン、PDA等を含む
音声ファイルは、データポート206を通ってAPPS108に入ることができる。このポートは、イーサネット(登録商標)接続のような、いずれかのタイプのデータポートを含むことができ、そのデータポートに対してデータはプリンタ102に入力されることができる。更に、DFS104は接続に対してAPPS108に入力され、その接続208は、DFS104の記憶器の位置(図示せず)にAPPS108を結合している。特徴抽出モジュール202及びフォーマット化モジュール204の両方はDFS104情報を用いることができる。DFS104は、特徴抽出モジュール202によりマルチメディアコンテンツに適用される特徴抽出技術を規定し、DFS104は、フォーマット化モジュール204により用いられる文書フォーマット化情報を規定する。
DFS104は種々の異なるタイプの情報を含む。DFS104は、表現が生成される音声ファイルについてのメタデータを含む。例えば、DFS104は、音声記録のタイトル、アーチスト、発行者等のような情報を含むことができる。DFS104は、記録についての開始時間及び終了時間を含むことができる。DFS104は又、タイムラインに沿って表示されることができる音声データのグラフィック表示のための仕様を含むことができる。例えば、そのグラフィック表示は、図1において説明したような音声波形とすることができる。その音声波形は時間に対する音声信号の振幅を示すことができ、ユーザは、必要なときに音声波形を拡大及び縮小を行うことができる。他の例は波形に対するJPEGである。DFS104は又、タイムラインに沿って表示することが可能である、各々のタイムスタンプ又はユーザ選択可能識別子(例えば、テキストタグまたはバーコード)に対するタイムスタンプマーカー及びメタデータのための仕様を含むことができる。
レイアウトパラメータは又、DFS104において規定されることができ、そのDFS104において、パラメータは、生成された物理的文書120のアピアランスを決定する。レイアウトパラメータは、例えば、文書120の各々のページにおいて表示される、タイムラインの一部のための仕様を含むことができる。レイアウトの生成は、デフォルト挙動仕様により決定され、プリンタデフォルト設定(例えば、プリンタ特性)において格納されることができる。これは、プリンタのコンソールにおけるユーザインタフェース、ウェブページ等を用いて、対話処理又はペーパー文書120の自立生成を含むことができる。
特徴抽出モジュール202は、グラフィック表現並びにDFE104において指定されたタイムスタンプ及びユーザ選択可能識別子116を生成する。グラフィック表現の例として、時間に対する音声ファイルの振幅を示す曲線を含む。ユーザ選択可能識別子116に用いられることが可能である他の特徴の例として、音楽の演奏のソロの検出、発話の認識、拍手の検出、音楽の検出等を含む。
フォーマット化モジュール204は、接続210により特徴抽出モジュールに結合される。特徴抽出データは、文書120のフォーマット化で用いるためにフォーマット化モジュール204への接続210に対して送信される。フォーマット化モジュール204は、音声特徴及びDFS104を、PDF文書のような、電子ファイルとして又は紙にレンダリングされることができる文書表現に変換する。DFS104は、文書フォーマット化パッケージ(例えば、Microsoft Word)により典型的に生成される他の情報及び用いられるフォントについての詳細情報を含む。このレイアウト情報は、下で説明するように、DFS104の“レイアウト”フィールドに含まれる。
図2のシステム200は又、プリンタにおいて、データ信号を処理する処理器(図示せず)を含むことができる。処理器(図示せず)は、CISC(Complex Instructin Set Computer)アーキテクチャ、RISC(Reduced Instruction Set Computer)アーキテクチャ又は命令集合の組み合わせを実行するアーキテクチャを含む種々のコンピューティングアーキテクチャから構成されることが可能である。システム200は、1つの処理器又は複数の処理器を含むことができる。主メモリ(図示せず)は、ソフトウェア及びシステムの他の構成要素を含む処理器214により実行されることが可能であるデータ及び/又は命令を記憶することが可能である。命令及び/又はデータは、ここで説明する技術のいずれか及び/又は全てを実行するためのコードから構成されることが可能である。主メモリ(図示せず)は、DRAM(Dynamic Random Access Memory)デバイス、SRAM(Static Random Access Memory)デバイス又は当該技術分野で既知のある他のメモリとすることが可能である。
プリンタ102が印刷要求を受信するとき、一部の実施形態においては、その要求及び対応するマルチメディアデータは、処理器(図示せず)に転送される。処理器は入力を解釈し、適切なモジュールをアクティブにする。一部の実施形態においては、処理器は、マルチメディアコンテンツを転送するために特徴抽出モジュール202に結合され、それを制御する。更に、処理器は、一部の実施形態においては、文書120のフォーマット化を制御するためにフォーマット化モジュール204に結合される。APPS108は、適切な文書ベースの表現を生成し、文書120生成のパラメータを修正するため及びその結果をプレビューするために印刷ドライバダイアログインタフェース(図示せず)によりユーザと対話することができる。マルチメディア変換のパラメータ及び結果はDFS104において示される。処理器(図示せず)は又、従来型のプリンタ(図示せず)と通信し、それに印刷ジョブ情報を送信することにより文書120の生成を管理することができ、従来型のプリンタ(図示せず)はペーパー出力を生成する。上記のように、文書120は又、バーコードのようなユーザ選択可能識別子と、プリンタ102により記憶された又は指定されたオンラインデータベース(図示せず)において記憶されたマルチメディアデータへの他のリンクを含むことができる。
動作中、システム200は、マルチメディアコンテンツを印刷するための方法を提供し、図において与えられた特定の例においては、システム200は音声コンテンツを印刷するための方法を提供する。ここで、図3を参照するに、音声ペーパー生成システム108における処理段階を説明するフロー図を示している。下で説明するように、APPS108は、サブルーチン処理を実行する制御プログラムに結合される。この実施形態においては、APPS108の処理段階は、システムに音声ファイルを入力する段階302とシステムにDFS104を入力する段階302とを含む。ユーザの命令に基づいて、APPS108は、グラフィック表現が要求されたか否かを判定する。否定的な場合、APPS108は、特徴抽出が要求されたかどうか、判定する方に移行する。肯定的な場合、APPS108は、DFS104において生成された情報と音声ファイル情報とを用いてグラフィック表現を生成するために、システム200の特徴抽出モジュール202を呼び出す304。APPS108は、DFS104においてリストアップされた文書仕様フィールドの1つとして特徴抽出結果の表現又はシンボリックフォームを付加する306ことにより、DFS104を更新する。
処理における次の段階として、APPS108は、特徴抽出が要求されたかどうかを判定する。否定的な場合、APPS108は、DFS104の“レイアウト”フィールドにおいてリストアップされたDFS104出力フォーマットにおいて指定された文書タイプを生成するためにフォーマット化モジュール204を呼び出す312方に移行する。肯定的な場合、APPS108は、DFS104において示された情報と音声ファイル情報とを用いて、DFS104において要求されたマーカーを生成するために特徴抽出モジュール202を呼び出す308。APPS108は、次いで、DFS104にマーカーデータを追加する310。一旦、この段階が完了すると、APPS108は、DFS104の“レイアウト”フィールドにおいてリストアップされたDFS104出力フォーマットにおいて指定された文書タイプを生成するためにフォーマット化モジュール204を呼び出す312。
ここで、図4を参照するに、フォーマット化モジュール204の動作を説明するフローチャートを示している。下で説明するように、フォーマット化モジュール204は、サブルーチン処理を実行する制御プログラムに結合される。この実施形態においては、フォーマット化モジュール204の処理段階は、特徴抽出モジュール202により実施される特徴抽出の結果を入力する段階402を含む。DFS104の“レイアウトページ”フィールドにおいて挙げられた各々のページに対して、フォーマット化モジュール204は、そのページのフォーマット化が終了したかどうかを判定する。肯定的な場合、フォーマット化モジュール204は制御プログラムにメッセージを返信する。そのフォーマット化が終了していない場合、フォーマット化モジュール204は、“メタデータ配置”に関するDFS104の“レイアウト”フィールドにおいて指定されたように、フォーマット化モジュール204においてメタデータをフォーマットする404。フォーマット化モジュール204は、次いで、特徴抽出の結果に基づいて、DFS104の“レイアウトタイプ”フィールドにおいて指定されたように、特徴抽出モジュール202により生成されたグラフィック表現をフォーマットする406。フォーマット化モジュール204は、DFS104の“マーカータイプ”フィールド、DFS104の“マーカー頻度”フィールド及びDFS104の“マーカーn”フィールドに従って、バーコードを生成する408。マーカーは、次いで、バーコードを与えられるフォーマット化モジュール204において指定されたように、フォーマット化される410。システムは、次いで、フォーマット化メタデータ、グラフィック表現及びマーカーが与えられたページをレンダリングする412。一旦、この処理がページに対して終了すると、フォーマット化モジュール204は、次いで、“レイアウトページ”フィールドにおけるページ全てがフォーマット化されるまで、DFS104の“レイアウトページ”フィールドにおける次のページ及び他のページ全てに対してこの処理を続ける。
ここで、図5を参照するに、マルチメディア文書120に対シルバーコードの生成について説明するフロー図を示している。下で説明するように、APPS108は、サブルーチン処理を実行する制御プログラムに結合される。この実施形態においては、処理段階は、バーコードタイプ(例えば、2を5にインターリーブする)、バーコードにおける識別子の桁の数、バーコードにおけるタイムスタンプの桁の数およびタイムスタンプ値を含む情報を入力する段階502を含む。システムは、次いで、フォーマット化モジュール204から識別子フィールドを読み取る504、次いで、識別子を右寄せ10進数列に変換する506。システムは、次いで、右寄せ識別子の長さがバーコードにおける可能な識別子の桁数より大きいかどうかを判定する。肯定的な場合、システムは制御プログラムにエラーコードに戻る。否定的な場合、システムは、タイムスタンプを右寄せ10進数列に変換する508。システムは、次いで、右寄せのタイムスタンプの長さがバーコードにおいて可能なタイムスタンプの桁の数より大きいかどうかを判定する。肯定的な場合、システムはエラーコードを返信する。否定的な場合、システムは右寄せタイムスタンプを添付し510、右寄せ識別子に対して、その右寄せタイムスタンプは左側を0で埋められる。システムは、次いで、指定されたタイプのバーコード画像をレンダリングし512、識別子情報及びタイムスタンプ情報を含む。システムは、動作の終了の信号を送る制御プログラムに返信メッセージを送信する。
上記のフロー図は音声コンテンツに関連して説明したが、そのような方法は又、映像または他のメディアコンテンツに適用することができる。フロー図として示した図は、フォーマット仕様、特徴抽出及び音声ペーパー生成アルゴリズムのためのパラメータの異なる組み合わせを適用する結果の例を示している。上記のように、フォーマット仕様、特徴抽出及びパラメータは又、他のタイプのメディアコンテンツを表示する文書を生成するために用いられることができる。
図6は、一定間隔を置いたユーザ選択可能識別子116を有する音声ペーパーのグラフィック表示と、音声ペーパーを生成するための音声特徴抽出仕様602を有する対応するDFS104を示している。図6aにおいては、音声ペーパー文書120を生成するためにレイアウト及びコンテンツを指定するためのDFS104を示している。図6aは、種々のDFSフィールドを含み、それらのDFSフィールドにおいて、レイアウト及びコンテンツに関する情報が指定されている。この例においては、文書120(例えば、音楽のレコーディング)に含まれる音声コンテンツのタイプを挙げる“タイプ”フィールド604がある。“識別子”フィールド608は、バーコードまたはユーザ選択可能識別子116に含まれるようになっている識別化情報を挙げている。“タイトル”フィールド610は、音楽のレコーディング(例えば、Locomotion)のタイトルを挙げている。“アーチスト”フィールド612は、音声コンテンツを制作したアーチストの名前(例えば、John Coltrane)を挙げている。DFS104は、レコーディングが含まれる音楽コレクション又はアルバム(例えば、Blue Train)を指定する“コレクション”フィールド614を含んでいる。DFS104は又、誰が及びいつの日付でそのレコーディングを発行したか(例えば、Blue Note Records、1957)を特定する、“発行者”フィールド616及び“発行日付”フィールド618を含んでいる。“開始時間”フィールド620及び“終了時間”フィールド622は、音声コンテンツが開始した時間(例えば、“00:00:00”)及び音声コンテンツが終了した時間(例えば、“00:07:14”)を挙げている。“グラフィック表現”フィールド624は、文書120に含まれる音声コンテンツのグラフィック表現のタイプ(例えば、振幅曲線)について説明している。
DFS104は又、文書120のレイアウトしようと共に、文書120に含まれるユーザ選択可能識別子116又はマーカーについての情報を含む。“マーカータイプ”フィールド628及び“マーカー頻度”フィールド630について示されているが、それらは、文書120(例えば、バーコード)に含まれるマーカーのタイプ及びマーカーがグラフィック表現に沿って現れる頻度(例えば、30秒間隔)を指定する。更に、レイアウトフィールドは文書120のレイアウトについての情報を与える。図6aにおいて、音声ペーパーのコンテンツの配置を指定する“レイアウトタイプ”フィールド632を示している。例えば、レイアウトタイプは、文書120において表示される1つの水平方向のタイムラインを含むことができ、又は、それに代えて、2つの水平方向のタイムラインを含むことが可能である。“レイアウトページ”フィールド634は文書120のページ数を指定する。“レイアウトマーカー配置”フィールド636は、ユーザ選択可能識別子116またはマーカーが表示される位置(例えば、グラフィック表現の上)を指定する。更に、“レイアウトメタデータ配置”フィールド638は、文書120におけるメタデータの配置についての情報を挙げている。メタデータは、ヘッダ又は他のメタデータを含むことができる。
図6aのDFS104は、生成されたメディア表現についての情報の集合の一例を示している。他の実施形態においては、DFS104は、例えば、ピクチャ情報、ハーパーテキスト、アーチストの経歴、アーチストの誕生日/死去日、アーチストの住所情報、表示されたメディアコンテンツをどこで購入するべきか(即ち、アルバムを購入するためのウェブサイトへのリンク)等のようなフィールドであって、それらに限定されない他の多くのフィールドを含むことができる。DFS104の一部の他の例については又、下で説明する。これは変形の網羅的なリストではなく、多くの他のタイプの情報を組み込むことが可能である。
又、図6aには音声特徴抽出仕様602を示している。“特徴”フィールド606は、音声コンテンツに適用される特徴抽出を規定する。この例において、音声特徴抽出602は音声振幅抽出及びグラフィック近似である。このようにして、文書120は音声波形112を示す。この例において、SVGファイルは出力される。
図6bにおいて、本発明の位置実施形態に従った音声ペーパー文書120のグラフィック表現を示している。この文書120において、DFS104における使用に従ったヘッダ情報を有するヘッダ110を示している。ヘッダ110は又、DFS104(において指定されているように位置付けられている、即ち、この場合、ページの上部に中央揃えされている)。文書120はタイムラインに沿って振幅曲線または音声波形112を表示している。本発明の他の実施形態においては、タイムラインは1つの直線又は他の種々のグラフィック表現により表されることができる。タイムラインは、音声レコーディングの長さに対応して、“00:00:00”から“00:07:14”まで実行される。タイムスタンプ114は音声波形112に沿って3箇所に示されており、レコーディングの開始時間と終了時間とにマーカーを付け、タイムスタンプ114と共に、セクションの中央の位置にマーカーを付けている。文書120は、ユーザの好みに従って、4つ以上のタイムスタンプ114を示すことができ、又はタイムスタンプ114を全く示さないことができる。
更に、文書120はユーザ選択可能識別子116(例えば、バーコード)を表示し、そのユーザ選択可能識別子116は、タイムラインに沿った位置においてユーザが音声コンテンツにアクセスすることができるインタフェースを提供する。一部の実施形態においては、ユーザは、各々のユーザ選択可能識別子116に対して特定の位置を指定することができる。この例において、ユーザは、文書120がタイムラインに沿って30秒毎にバーコードマーカーを有するように指定した。これらのユーザ選択可能識別子116は、各々の個々の識別子116のより容易な選択を可能にするために、1つの長い線ではなく、“階段”方式で表示されている。しかしながら、ユーザ選択可能識別子116の配列は大きく変化させることができ、DFS104において指定されることができる。上記のように、ユーザは対応する音声コンテンツをプレイするために印刷文書においていずれのユーザ選択可能識別子116を選択することができる。例えば、ユーザは、 バーコードを走査することが可能であり、携帯電話又は他の表示装置においてタイムラインに沿ったいずれかの位置から開始するレコーディングをプレイするためにその位置において、バーコードスキャナを有する携帯電話を用いて、バーコードを走査することが可能である。
ここで、図7を参照するに、レコーディングにおける各々の音楽のソロのためのユーザ選択可能識別子116を有する文書120のグラフィク表示と、音声ペーパー120を生成するための音声特徴抽出仕様602を有する対応してDFS104とを示している。図7aに示すDFS104は図6aに示すそれに類似しているが、図7aの例は幾つかの変更を含んでいる。図7aのDFS104の例は、音声コンテンツに適用される特徴抽出を挙げる“特徴抽出”フィールド702を含んでいる。この場合、特徴抽出は、音声コンテンツにおける音楽のソロにマーカーを付けることを含んでおり、その特徴抽出において、出力は楽器名及びソロの開始する時間を示す。図7aの例においては、“マーカータイプ1”フィールド704及び
“マーカータイプ2”フィールド706を示しており、これらのフィールドは文書120において表示されるユーザ選択可能識別子116の2つのタイプを指定する。例えば、文書120は、タイムスタンプ114の上に示されるバーコードの上に
示される楽器名を表示するマーカータイプ1を含む。この例においては、マーカータイプ2はバーコード(即ち、グラフィック表現の下の規定された位置に表示される第2バーコード)である。DFS104は又、“レイアウトマーカー1配置”フィールド710及び“レイアウトマーカー2配置”フィールド712を含む。これらのフィールドは、タイムラインの下又はタイムラインの上のように、各々のマーカーが文書120において示されるところを指定する。
図7aは又、“特徴”フィールド606における音声特徴抽出しよう602を示している。この例における音声特徴抽出しよう602は、SVGファイル出力と共に、音声振幅抽出とグラフィック近似とを含む。又、音声特徴抽出仕様602は音楽のソロの抽出を含み、各々のソロの開始時間及び各々のソロにおいて用いられる楽器を出力する。この例においては、特徴抽出の1つのタイプが音声コンテンツに適用されている。しかしながら、システムは、ある時間においていずれかの数の特徴抽出タイプを適用することができる。他の特徴抽出の例は、発話検出、話者検出、話者認識、映像/音声イベント検出、映像前景/後景セグメント化、顔検出、顔画像適合化、顔認識、顔カタログ化、映像テキスト定位化、光学式文字認識(OCR)、言語翻訳、フレーム分類、クリップ分類、画像ステッチ、音声フォーマット変換、音声波形適合化、音声キャプション位置合わせ、映像OCR及びキャプション位置合わせ、音声定位化、ラジオ送信認識、スライダによる音声/映像範囲選択、話者セグメント化、プロファイル分析、カラーヒストグラム分析、クラスタリング、動き分析、距離推定、シーンセグメント化、ナンバープレート又は自動車認識並びに動き分析等を含むが、これらに限定されるものではない。以上は、多様性の網羅的なリストではなく、多くの他のタイプの抽出を本発明に組み込むことが可能である。
図7bは、図7aの音声特徴抽出仕様602及びDFS104に従った文書120のグラフィック表現を示している。文書120は、ヘッダ110と、水平方向に表示された音声波形112と、音声波形112の下部に沿った位置におけるタイムスタンプ114とを含む。この例においては又、各々のタイムスタンプ114の近くに含まれるユーザ選択可能識別子116がある。ユーザは、マーカーに位置における音声コンテンツのプレイを開始するためにこれらオンユーザ選択可能識別子を選択する(例えば、バーコードを走査する)ことができる。例えば、ユーザが時間“00:00:00”の上に示されるバーコードを走査する場合、レコーディングは初めからプレイを開始する。ソロの抽出は文書120において表示される音声コンテンツに適用されたため、音声波形112は各々の音楽のソロのためのマーカーを含む。それらのマーカーは、マーカーを付けられたソロのタイプ(例えば、サックスのソロ)と、ソロにインタフェースを提供するユーザ選択可能識別子116と、音声コンテンツにおけるソロの位置を示すタイムスタンプ114とを説明するテキスト表示714を含む。例えば、印刷文書における“サックス”ソロの下のバーコードを走査することにより、サックスのソロは表示装置において初めからプレイを開始する。
ここで、図8を参照するに、ラジオのプログラムのためのタイムラインを示す文書120のグラフィック表現と、音声ペーパー120を生成するための音声特徴抽出試用02を有する対応するDFS104とを示している。図8aに示されるDFS104は図6aに示すそれに類似しているが、図8aの例は幾つかの変更を含んでいる。図8aの例は、ラジオプログラムに対するDFS104を示しており、DFS104は、ラジオ番組に関する文書120に付加注釈を加える“注釈”フィールド802を含む。この例において、注釈は、プログラムにおけるゲストは“Bill O’Reilly”であることを示している。このようにして、ラジオトークショーが存在する時間と、ホストの名前及びコマーシャルブレークが存在するインタバルと、会話の各々の部分のためのバーコードと共に紙に印刷されることができるその持続時間とのようなラジオトークショーに関する利用可能なメタ情報の要旨を示している。共演者が既知の場合、共演者の名前を含めることが可能である。バーコードは、システムのユーザにより別々に記録された音声データを指すことが可能であり、又は、トークショーにより提供されるウェブサイトにおける音声データを指すことが可能である。これは、文書の記録、生成、衛星放送のメディアファイル及びウェブページを後処理するソフトウェアに結合されることが可能である。トークショーが行われる間にオンラインで実行される注釈に生成処理をアクティブにリンクさせることにより更なるユーティリティが提供される。この注釈は、プログラムに電話を掛ける人の電話数のような、リスナに利用可能でない情報へのアクセスをプロデューサが有するため、そのショーが行われている間に、このような注釈はラジオ局において実行されることができる。
図8bは、音声特徴抽出仕様602を有するDFS104に従って表示された文書120を示している。文書120は、タイトルと日付とラジオプログラムについての注釈情報とを示すヘッダ110、音声波形112、タイムスタンプ114及び“3段階段”方式で表示されたユーザ選択可能識別子116を含んでいる。
ここで、図9を参照するに、キーワードについてのマーカーを有するラジオプログラムに対するタイムラインを示す文書120のグラフィック表現と、音声ペーパー120を生成するための音声特徴抽出仕様602を有する対応するDFS104とを示している。図9aに示すDFS104は図8aに示すそれに類似しているが、図9aの例はマーカー情報に関する変更を含んでいる。図9aの“マーカータイプ”フィールド628は、キーワード、バーコード及びタイムスタンプを含むマーカータイプを示している。“マーカー頻度”フィールド630は、その頻度が“ユーザ定義”されていることを示している。このようにして、この例においては、ユーザはタイムラインに沿って表示される各々のマーカーを選択した。“マーカー”フィールド902において、ユーザはマーカー1乃至11に対する選択を行った。例えば、マーカー1に対して、ユーザはバーコード、タイムスタンプ及びマーカーテキストを示すテキスト(例えば、“WTC”)を含むようにマーカーであって、マーカーを付けられた音声コンテンツを示す、マーカーを定義した。ユーザは又、タイムラインに沿って、“vert.pos.1”、“vert.pos.2”又は“vert.pos.3”のような各々のマーカーの垂直方向の位置を定義した。これらの位置付けの仕様は、タイムラインの上の多くの階段状の位置から選択されたマーカーが垂直方向のどこに位置付けられるかを決定する。音声特徴抽出602は又、グラフィック近似を有する音声振幅抽出である。
図9bは、図9aの音声特徴週出仕様602とDFS104に従って表示された文書120を示している。文書120は、ラジオプログラムのためのヘッダ110と、音声波形112と、音声波形の下のタイムスタンプ114と、タイムラインに沿ってユーザ定義位置に表示されたマーカーとを含む。マーカーは、マーカーを付けられたラジオプログラムにおけるコンテンツを表すためにユーザにより設定されたテキスト情報714を含む。更に、マーカーは、ユーザ選択可能識別子116とタイムスタンプ114とを含む。
ここで、図10を参照するに、検索語についての音声特徴抽出を有するラジオプログラムのためのタイムラインを示す文書120のグラフィク表現を示している。図10aのDFS104は、発話認識技術及びキーワード適合技術が音声コンテンツに適用された“特徴抽出”フィールド702において示されている。この例において、ユーザは、検索語として、“New York Times”又は“fair and balenced(公正で中立)”を検索した。図10aは、適合化検索語、バーコード及びタイムスタンプを含む“マーカータイプ”フィールド628を示している。“マーカー頻度”フィールド630は、頻度が“ユーザ定義”であることを示している。このようにして、この例においては、ユーザはタイムラインに沿って表示される各々のマーカーを選択した。“マーカー”フィールド902において、ユーザはマーカー1乃至11に対する選択を行った。例えば、マーカー1に対して、ユーザは、バーコード、タイムスタンプ及びマーカーを表すテキスト(例えば、“fair and balanced”を
含むマーカー並びに各々のマーカーの垂直方向の位置を定義した。
音声特徴抽出仕様602は又、グラフィック近時を有する音声振幅抽出を含む。音声特徴抽出仕様602は又、所定のキーワードのリストに適合する言葉と共に、発話認識を含む。このようにして、ユーザは、話者が特定の言葉を用いるラジオプログラムにおける位置と、発話の一部または全ての写しと共に、これらの位置がタイムラインに沿ってマーカーを付けられた位置とを検索した。代替として、ユーザは、発話認識のみを適用することが可能であり、発話がなされた音声コンテンツにおけるいずれかのポイントを認識することが可能である。発話認識出力は騒々しい可能性があるため、認識の信頼度についての一部の表現が又、含まれることができ、それ故、ユーザは、どの単語又は文章がより正確である可能性があるかを理解することができる。例えば、文書120は、認識の信頼度を表すために色又はフォントサイズにおける変化を有することが可能である。大きい信頼度の判定は赤色で12ポイントのフォントで表される一方、最も低い信頼度の判定は青色で8ポイントのフォントで表されるようにすることが可能である。ユーザ選択可能識別子116は、最も大きい信頼度を有する判定のみ又は各々の判定に対して含まれることができる。
音声コンテンツに適用されることが可能である音声特徴抽出の他の例は、話者検出と話者認識とを含む。話者検出抽出は、記録における同一の話者達のグループを認識し、同じ人が話していたときを判定することができる。このことは、限定された色のパレットを用いて注釈を付けられたセグメントによりタイムラインに沿って表されることができ、各々の話者に対して異なる色で、及び同じ話者に対して同じ色で示すことができる。話者認識抽出は、音声記録の間に話した実在の人物を指定する。人物のシンボリック同一性は、走査されるときにセグメントの初めから音声をプレイするバーコードと共に、タイムラインのセグメントの隣に加えられ、計算されることができる。このことは、プリントアウトを走査すること、及び誰が会議に出席したかを理解することを可能にする。代替のバージョンは名前のリストを印刷することを可能にし、それらの名前の次にバーコードを付けることを可能にする。ユーザはこれらのバーコードを走査し、その人物が話をしたときの記録のいつ部を聴くことが可能である。他の例は、それらの人物達についての顔画像を検索し、それらの人物の名前及びバーコードの隣にそれら顔画像を印刷する。音声データは又、2次元バーコードにおいて具現化することが可能であり、それ故、音声ファイルについての完全なスタンドアロン表現を提供することが可能である。
図10bは、図10aの音声特徴抽出仕様602を有するDFS104に従って表示された文書120を示している。文書120は、“キーワード検索語”の注釈を又示すラジオプログラムのためのヘッダ110と、音声波形112と、音声波形112の下のタイムスタンプ114と、タイムラインに沿ってユーザ定義位置に表示されたマーカーとを含む。マーカーは、マーカーを付けられたラジオプログラムにおけるコンテンツを表すためにユーザにより設定されたテキスト情報714を含む。この場合、滝スト情報714は、音声コンテンツにおいて見つけられた特定の言葉である。更に、マーカーは、ユーザ選択可能識別子116とタイムスタンプ114とを含む。ユーザ選択可能識別子を選択することにより、ユーザは、検索語が用いられた音声コンテンツを聴くことができる。
図11において、拍手イベントについての音声特徴抽出を有するラジオプログラムのためのタイムラインを示す文書120のグラフィック表現を示している。図11aのDFS104は、拍手検出が音声コンテンツに適用された“特徴抽出”フィールド702において示されている。音声特徴抽出仕様602は拍手検出タイムスタンプを含む。このようにして、ユーザは、拍手イベントが実施されたラジオプログラムにおける位置を検索し、そのような位置はタイムラインに沿ってマーカーが付けられる。
図11bは、図11aの音声特徴抽出仕様602とDFS104に従って表示された文書120を示している。文書120は、“示された注釈イベント”の注釈を又示すラジオプログラムのためのヘッダ110と、音声波形112と、音声波形112の下のタイムスタンプ114と、タイム欄に沿ってユーザ定義位置に表示されたマーカーとを含む。代替として、システムは、例えば、笑い、大声での会話、ドアを閉める音等のような音声コンテンツにおいて他のイベントが存在するときにマーカーを付けることが可能である。これは、例えば、議論が会議において起こったポイントで、会議の記録を即座に走査するために用いられることが可能である。マーカーは、ユーザ選択可能識別子116及びタイムスタンプ114を含む。ユーザ選択可能識別子を選択することにより、ユーザは、拍手が起こった音声コンテンツを聴くことができる。ユーザ選択可能識別子は、ペーパー文書において印刷された2次元識別子(例えば、バーコード)に盛り込まれた音声を又はオフラインで記憶された音声データを参照することができる。
音声定位化技術は又、音声恩典津に適用されることが可能である。この例において、タイムライン表現は、記録がなされた部屋における場所を指す方向インジケータを含むことができる。これは、ユーザが、例えば、部屋の最南の角の人物、又はテーブルを横断してその人物に対向する人物が話しているときを判定し、タイムラインを即座に走査することを可能にする。これは、例えば、音声定位化を実行するために構成することができる複数のマイクロフォンの設置を有する一定の設定を適用することができる。又、インタビューを記録するプロにより用いられる記録器のような適切に設備される可搬型記録器と共にそれは用いられることができる。
図12において、音楽イベントに対する音声特徴抽出を用いてラジオプログラムのタイムラインを示す文書120のグラフィック表現を示している。図12aのDFS104は、音楽検出が音声コンテンツに適用された“特徴抽出”フィ0ルド702において示されている。音声特徴抽出仕様602は音楽検出タイムスタンプを含む。それ故、ユーザは、音楽イベントが存在したラジオプログラムにおける位置であって、これらの位置がタイムラインに沿ってマーカー付けされている、位置を検索した。更に、“レイアウトタイプ”フィールド632は、半分に分割された2つの垂直方向のタイムラインを含むレイアウトタイプを示している。
図12bは、図12aの音声特徴抽出試用02とDFS104に従って表示された文書120を示している。文書120は、“示された音楽イベント”の注釈を又示すラジオプログラムのためのヘッダ110、音声波形112、音声波形112の近くのタイムスタンプ114及びタイムラインに沿ってユーザ定義位置に表示されたマーカーを含む。マーカーは、ユーザ選択可能識別子116とタイムスタンプ114とを含む。ユーザ選択可能識別子116を選択することにより、ユーザは、拍手が起こった音声コンテンツを聴くことができる。タイムラインは、2つの半分ずつに分割されたタイムラインであって、各々の半分は垂直方向に表示されているタイムラインと共にDFS104に示されているレイアウトタイプに従って表示されている。
マルチメディアペーパーは又、音声メールメッセージの表現を生成するために用いられることができる。ユーザは、例えば、発呼者の電話番号、インターネット検索エンジン(発呼者の名前、住所及び位置を示す地図をしばしば示すことができる)における電話番号を調べた結果及びメッセージの日時と持続時間等のような、音声メールメッセージの収集についての利用可能なメタデータの要約を生成することができる。メタ情報の各々のブロックは、ネットワークの遠隔地からの音声情報を検索するバーコードの隣に印刷されることが可能であり、又は、ペーパーから直接プレイされることが可能である2次元バーコードにおいて表示されることが可能であり、それ故、いずれかのオフデバイスアクセスに対する要求を未然に防ぐことが可能である。ペーパー文書は、ペーパー文書を検索し且つそれを加えることができる付加情報(例えば、インターネット検索エンジン情報)を提供することによりユーザに有用性を提供する。又、ペーパー文書自体は、その文書に関する音声メールメッセージについての注記を書き込む能力をユーザに提供する。
マルチメディアペーパーは又、日付、時間、持続時間、自動車番号、警官の名前(必要に応じて)を含む1つ又はそれ以上の公安(例えば、警察署、消防署等)無線のレコーディングについての利用可能なメタデータの要旨は、それらのレコーディングについてのオフライン表現を参照するバーコードと共にペーパーに印刷されることができる。又、音声データを直接符合化する2次元バーコードを用いることができる。このことは、ネットワーク接続を独立して使用されることができるスタンドアロン表現を提供する。メタ情報は記録された音声に適用される信号処理アルゴリズムにより計算されることができ、又は、無線で提供されるデジタルサイドチャネル情報(例えば、Motorolaデジタル無線情報)から計算されることが可能である。又、メタ情報は、無線発信器コンソールにおいてデジタル的に供給されることが可能である。このシステムは、無線ログを選択的に調べる必要がある管理者を支援することが可能であり、又は、公安の手法を観測することを希望する公衆を支援することが可能である。
マルチメディアペーパーは又、航空無線の表現の生成において使用されることができる。1つ又はそれ以上の航空無線の記録についての利用可能メタデータの要旨であって、特定の伝送がなされたときの飛行の日付、時間、持続時間、便名、出発地、目的地、現在位置を含む、要旨は、音声記録のオンラインフォームを指すバーコードと共にペーパーに印刷されることが可能である。メタ情報は、適切な装置が利用可能である場合、トランスポンダが返すモードSから、直接、抽出されることができる。付加メタ情報は、リアルタイムに飛行の進行を追跡する種々のオンラインサービスから検索されることが可能である。音声記録に適用される発話認識は、オンラインデータへのリンクを計算するために用いられることが可能であるシンボリック情報を提供することが可能である。このことは、モードSへの直接的リンクに対する要求を未然に防ぎ、FAA装置にアクセスすることなく、このシステムを人が利用可能であるようにする。
本発明について特定の好適な実施形態を参照して説明したが、当業者は、種々の改良が可能であることを認識するであろう。好適な実施形態に対する変形及び改良は、同時提出の請求の範囲によってのみ規定される本発明により提供される。