本発明は、入力メディアサンプルのデジタル処理を行うワイヤレス無線電話装置に適用する分野に関し、特に、かかる装置と、ポピュラーソングの一節等の入力メディアサンプルから特徴抽出ができるように構成したユーザインターフェースとに関する。
近年、ポピュラー音楽の所有者は、著作権のある作品のデジタルコピーを、インターネット等の電子ネットワークを通じてダウンロードすることを取り入れている。このようなダウンロードを行う一般的なウェブサイトの一つとして、http://www.apple.com/itunes/がある。ここでは、パーソナルコンピュータ(PC)等を介してユーザがウェブサイトを訪れて、曲名を手入力で選択して、選択した楽曲のデジタルバージョン(例えば、MP3、AAC)を、このウェブサイトへのアクセスに使用したPCにダウンロードする。ユーザは次に、楽曲をPCで再生したり、iPod(登録商標)または他の専用デジタル音楽プレーヤ等の携帯装置に送信したりする。
近年、ユーザがウェブページ上でその曲名により楽曲を手入力で選択する必要のない、第2世代の音楽ダウンロード技術が販売されるようになった。その代わりに、サーバまたはウェブサイトに対応づけられた他のコンピュータに楽曲を'聴かせ'て、デジタルで分析して、その特定の楽曲をデジタル音楽データベースから特定する。例えば、http://shazam.com/uk/do/help_faqs_shazam#4のウェブサイトでは、その動作を次のように説明している。例えばパブや車内にいるユーザが楽曲を聴いていて、楽曲が演奏されている間にユーザの移動局(MS)にコードを入力する。標準MSリンクを通じて、音声入力を送信するというように、その楽曲をshazam.com等のホストウェブサイトに送信する。すなわち、マイクへの任意の入力を変換するように、MSからshazam.comサイトに送信したメッセージは、MSのボコーダが変換した入力アナログ音楽サンプルである。ホストウェブサイトは、(変換した)未処理の音楽入力を受信して分析して、そのデータベース内の楽曲の1つと照合する。shazam.com技術は、アナログ入力をデジタルに変換して、変換した信号をパケット化して、単なるパイプとして移動局を用いるサーバで楽曲を特定することと、結果を移動局に返送することとに限定されているように見える。さらに、ワイヤレスリンクが確立するまでは、サンプルを特定するための処理を行わないように見えるので、楽曲の後半部分のみを聴いているユーザが、楽曲が終了する前に確立したリンクを有していない場合もある。
大抵の音楽ダウンロードサービスへはパーソナルコンピュータを介してアクセスするが、モバイル無線(Over−The−Air(OTA))ダウンロードサービスも導入されている。モバイル装置には、画面サイズが小さいことと、電源供給が限られていることと、データ接続の信頼性および速度とに制限があり、これらのことにより、音楽を見つけて音楽サービスからモバイル端末へ音楽を配信することが困難になっている。通常、真の音楽サービスを行うには、少なくとも500,000楽曲を収集している。モバイル装置ユーザインターフェースを用いてこのサイズの音楽カタログを検索することは難しく、連続表示により内容を画面に合わせる必要がある。これにより、階層が深くなり、音楽発見が困難になる。
パブや、コンサートホールや、車のラジオなどから、人々が公共の場所で音楽を聴くことは、一般的なことである。従来から、ある特定の音楽に関心を持つようになるが、楽曲の曲名がわからないことがある。次に、友人やレコード店の店員に尋ねたり、楽曲の曲名をたまたまラジオ放送で聴いてアーティストと曲名とを見つけ出したりして、楽曲を特定する。shazam.comサイト(上記)を用いて、対応付けられたサービス番号に電話をかけて、移動局を通じて生'放送'としてその楽曲を再生することにより、その楽曲を特定することもできる。次に、レコード店に出向いたり、shazam.comまたは同様の識別サービスから返送された識別に基づいて、インターネットサービスからその楽曲を購入したりする。しかしながら、以下の、1)音楽サンプルを聴く(刺激)、2)楽曲を特定する、3)購入するために楽曲を見つける(識別に基づく)、4)楽曲のコピーを購入する、5)購入したコピーを配信して自分の音楽コレクションに追加するという工程が必ず必要になる。
1)から3)までの工程は、手入力による従来の方法である。インターネットベースの音楽購入により、4)および5)の工程が自動化される。shazam.com等のサービスにより、工程1)の電子'聴取'に基づく工程2)が自動化される。しかしながら、発明者が知っている上記の工程を行うためのすべての従来技術のアプローチには、楽曲を特定してコピーを購入したい希望者による手入力工程が必要になる。本発明は、上記の処理をさらに簡素化して自動化することを求める。
非常に大量のデジタルファイルが作成され蓄積されているので、デジタルファイルを特定する方法を標準化する必要が生じている。マルチメディアファイルの内容を特定する情報の表現を標準化する、MPEG−7が動画像符号化専門家会合(MPEG)により開発されている。これは、情報、すなわち内容自体と対照的に、データベースのカテゴリー分類および検索にあまり適していない。MPEG−7が標準化アプローチになるかならないかにかかわらず、マルチメディアファイルを効率的に索引付けし、検索し、取り出す開発中のツールを記述するものである。ここでは、本発明により、音楽または他の媒体の特定および購入をいかに自動化するかを以下で説明する際の例示の方法として、このようなツールを用いる。
発明のまとめ
本発明は、ユーザが、ラジオ放送などで聴いたことのある、そのメディアファイルの未確認のメディアサンプルのみを有している場合に、デジタル楽曲ファイル等のメディアファイルの特定および購入を容易にするように特に構成した、移動局または他の携帯電子装置と、ユーザインターフェースとを提供する。
一側面では、本発明を、プロセッサとユーザ入力機構とを備える移動局で実施する。以下で詳細に説明するように、サンプルの特定およびファイルの購入に関する機能に確保した専用ボタン等のユーザ入力機構は、デジタルメディアサンプルから少なくとも1つの特徴を抽出させるように構成されている。Eメールを介して受信したり、短いメッセージサービスメッセージに添付されたりしたデジタルメディアサンプルで、デジタルメディアサンプルを移動局外部から送信したり、FMラジオ放送からマイクで入力を受信したモバイル装置で、移動局がデジタルメディアサンプルに変換したアナログメディアサンプルとして送信したりすることもできる。特徴は、メディアサンプルの内容のアイデンティティを記述するもので、メディアサンプルをある形態から別の形態へ変換するボコーダを通じて区別する。ここで説明する特徴の例としては、波形包絡線、高調波周波数、スペクトル中心、および無音、その他を含む。好ましくは、移動局はまた、送信機を備える。入力機構による1回のユーザ入力により、プロセッサに特徴を抽出させ、ネットワークへのワイヤレスリンクを起動させて、送信機に、リンクを通じてプロセッサが抽出した特徴を送信させるように、移動局を構成する。移動局は好ましくは、メディアサンプルのテキスト識別子を表示する、ディスプレイインターフェースまたは画面を備えると利点がある。このような表示は、ネットワークからリンクを通じて受信機で応答メッセージを受信することに応答する。応答メッセージは、抽出した特徴の送信に応答し、応答メッセージは、メディアサンプルと一致するメディアファイルの識別子を含む。本発明の側面について、さらに補足して説明する。
別の実施の形態では、本発明は、携帯電子装置のユーザインターフェースである。ユーザインターフェースは、ユーザ入力ユーザ入力機構でが1回行われると、携帯電子装置内部のプロセッサに2つの動作を行わせる、ユーザ入力機構を有する。この1回のユーザ入力により、デジタルメディアサンプルから複数の特徴を抽出させ、抽出した複数の特徴を装置外部に送信させる。デジタルメディアサンプルは装置への入力等であってもよく、または、装置が入力であるアナログメディアサンプルをデジタルに変換してもよい。ユーザインターフェースはさらに、メディアサンプルが対応するメディアファイルのテキスト識別子、すなわち、抽出された特徴が複数の抽出し送信した特徴と正確に一致する、メディアファイルを構成するメディアファイルのテキスト識別子を表示する、表示画面を含む。しかしながら、このことは、移動局が実際にはメディアファイルを構成する特徴を抽出して、デジタルメディアサンプルを構成する抽出された特徴と比較することを意味するものではない。それ自体が送信した特徴の応答である応答メッセージの受信に応答して、テキスト識別子を表示する。好ましくは、ユーザ入力機構はまた、応答メッセージの受信に続いて、装置外部に認可メッセージを送信させてもよい。認可メッセージには、応答メッセージで受信したメディアファイル識別子と、携帯電子装置にメディアファイルのコピーをダウンロードする要求とが含まれる。しかしながら、好ましくは、この認可メッセージを、特徴を抽出し送信を開始したユーザ入力を行うことで起動しない。
添付の図面とともに以下の説明を参照して、これらの側面、他の側面、本発明の実施の形態の利点について、明らかになるであろう。しかしながら、図面は単に説明のためのものであって、本発明の制限を意味するものではないことを理解されたい。
詳細な説明
本発明は、モバイル電話機能を有する移動局(または他の携帯電子装置)と、そのユーザインターフェースとに向けられている。ユーザインターフェースにより、マイクを介したアナログサンプル入力またはEメール受信またはPCへのケーブル接続を介したアップロードによるデジタルサンプル入力等の任意の手段により、媒体局へ入力したメディアサンプルをユーザが容易に特定できるようにする。図1および図3A〜図3Dおよび関連する記述は、好ましくはMSが動作するシステムを説明するもので、2004年月26日出願の、共有の同時継続出願である米国特許出願第10/810,924号の主題である。図2A〜図2Bは、対象のメディアサンプルを特定するための配信特徴抽出を説明するもので、図2AはMS部分を説明している。図4A〜図4Bおよび図5は特に、主として本発明のMSおよびユーザインターフェースに関連している。
ここで用いられる用語を説明することにより、以下の詳細な説明を十分に理解するであろう。メディアサンプルは、分析を行う、任意のサイズの音声、映像、または音声/映像信号の一部である。メディアサンプルは、アナログであってもよいし(人が識別できる、MSのトランスデューサで受信した音楽セグメントまたはMSに組み込まれたアナログ無線受信機で受信したFM放送無線信号)、またはデジタルであってもよい(ケーブルまたはワイヤレスリンクを通じてMSにダウンロードまたはアップロードしたファイル)。以下では、時間限定セグメントの楽曲として説明を行う。例えば、従来のFMラジオで通常放送される、3分間の楽曲の連続またはコヒーレントの10秒間のセグメントである。そのサンプル、またはそのデジタルバージョンの特徴は、そのデジタル分析から収集または抽出されたようなサンプルの内容のデジタルマーカ、記述子、または他の識別子である。時点とは、サンプル内の時系列的インスタントである。特徴は、しばしば時点に対応づけられている。例えば、サンプル内で最大振幅が一回だけ発生する時点、繰り返しの周波数パターンが等間隔で開始する時点、特徴的なパーカッションシーケンスが特定可能な低音域シーケンスが終了してから一定のオフセットタイムで発生する時点等である。以下に、特徴についてより詳細な説明を行う。サンプルの様々な特徴を定量化するために、特徴をサンプルから抽出する。音楽の例では、楽曲データベースを検索して、数千または何百万もの楽曲の中からサンプリングした楽曲の曲名(またはバージョン、アーティスト等)を特定するために、楽曲サンプルの特徴を抽出する。データベースが楽曲全体から以前に抽出された特徴を含んでいる場合は、現在のサンプルから抽出された特徴と以前に抽出した特徴との間で1対1の比較を行うこともできる。このように、全体の中の比較的小さなサンプルだけで楽曲を特定することができる。特徴をメディアサンプルまたはそのサンプルのデジタルバージョンから抽出することもできるが、すでに抽出した特徴からさらに特徴を抽出することもできる。例えば、メディアサンプルまたはそのサンプルのデジタルバージョンから抽出された第1のセットの特徴は、それら特徴の間のある自己相関を示すものである。その自己相関を、第1のセットの抽出した特徴だけを分析して求める。
本発明を実施する通信システム20を図1に示す。FMラジオ等のメディア源22が、楽曲の一部分等のメディアサンプル24を供給する。移動局MS26またはワイヤレス通信機能、特にワイヤレス電話機能を有する同様の携帯装置が、メディアサンプル24を受信してデジタル化して、処理を行って送信する。MS26を介して楽曲全体を受信することもでき、メディアサンプルまたはそのデジタル化バージョンが、MS26が本発明に従って動作する部分である。MS26が、少なくともある部分のメディアサンプル24のデジタルバージョンを生成して、1つ以上の特徴をそれから抽出して、これらの特徴を、ワイヤレスリンク28を通じて通信サーバ30Bと通信を行う基地局30Aを含む通信サービス30に送信する。
通信サービス30が、MS26から基地局30Aで通話を受信して、通話を監視して、MS26から民間楽曲認識サービス34へ通信を転送する。通信サービスは、用いる通信方法の種類によりMS26から受信した正確な信号を変更してもしなくてもよい(復号化、展開、特定およびエラー補正等)が、基礎となる実データを変更しないで、特徴を送信する。また、以下で詳細に説明するように、通信サービス30は、MS26が受信する短い応答メッセージの作成を行う。
楽曲認識サービス34が、通信サービス30を介してMS26の送信を受信する。好ましくは、この送信は、楽曲認識サービス34でさらに分析するメディアサンプル24の特徴を含んでいる。あるいは、MSが抽出した特徴をサンプルの別のセグメントとともに送信して、認識サービス34がこれからさらに特徴を抽出する。MSの処理能力およびバッテリ効率が増加すると、MS26からの送信には、認識サービス34がさらに特徴抽出を行う必要がないほど広範囲にわたる特徴が含まれることになる。送信とは、MS26を介して全メディアサンプル34を単に電話によりその場で供給するというものではない。とにかく、楽曲認識サービス34が送信を受け取って、MS26から受信したメッセージから該当する特徴をさらに抽出したりして、そのメッセージ内で受信した、MSが抽出した特徴と組み合わせる。
楽曲署名データベース36は、楽曲認識サービス34有していてもいなくてもよいが、これは、(MS26および認識サービス34の両方により)メディアサンプル34から抽出された特徴の全セットを比較するデータベースである。このデータベースは好ましくは、その基礎となるメディアファイルまたはサンプルから抽出された複数の特徴を、多数のファイルそれぞれに対して記憶する。これら格納した特徴セットを用いて、メディアサンプル24を署名データベース36全体から抽出する、基礎となるファイルを一意に特定することもできる。あるいは、署名データベース36は、ファイルまたは楽曲それぞれに対して、いくつかの抽出された一意でない特徴および基準サンプル(基礎となるファイルまたは楽曲を一意に特定する組み合わせ)、また他の楽曲またはファイルからデータベース内の1つの楽曲またはファイルを一意に特定する任意の他の手段を記憶してもよい。
楽曲認識サービス34は、オリジナルサンプルを楽曲署名データベース36に格納したサンプルと比較して、MS26が送信した特徴と唯一一致するものを楽曲署名データベース36の中から探し出す。MS26および認識サービス34はそれぞれ特徴を抽出するが、楽曲認識サービス34は2つの別々の機能を実行する。抽出した特徴を用いてデータベースを検索することと、メディアサンプルの送信された部分からさらに特徴を抽出することとである。好ましくは、認識サービス34はこれら2つの機能を並行して行う。楽曲認識サービス34がはじめにMS26が以前に抽出した特徴を用いて署名データベース36を検索した場合は、一意の楽曲を特定することはないが、最初の検索で用いる特徴の数により、署名データベース36で一致する候補を基本的により小さなサブセットに減らす。同時に、認識サービス34は、MS26が送信したその部分のメディアサンプル24からさらに特徴を抽出する。さらに特徴をそれぞれ抽出しながら、一意の対応を探し出すまで、一致する候補のサブセットを減らす。この時点で、認識サービス34はさらに特徴を抽出することを終了して、メディアサンプル24を署名データベース36内のメディアファイルと照合するのに必要な全処理を最小限にする。
あるいは、その代わりに、認識サービス34ははじめにMS26が送信したメッセージからさらに特徴を抽出して、抽出した特徴をMS26から受信した特徴とまとめて、全署名データベース36を一度だけ検索して、一意の対応を探す。この選択は、ユーザに対する応答性(データベースの検索時間)と、認識サービスが多数のMSから同時に送信される多数のメッセージからさらに特徴を抽出する利用可能な処理能力との間の市場主導型バランスに基づいている。
一旦、一意の対応を発見すると、認識サービス34は、サンプル識別メッセージ(これは、対応がないという特定該当なしメッセージでもある)をMS26に通信サービス30を介して送信する。MS26は、曲名およびアーティストを表示ユーザインターフェースUIに表示して、楽曲または他のメディアファイルの名称をユーザに知らせる。
好ましくは、本発明は、楽曲またはメディアファイルを単に特定することばかりでなく、自動的にリンクを提供して、ユーザがその特定したメディアファイルのコピーを購入して、MS26の顧客がダウンロードできるように拡張する。あるいは、第1のコピーをMS26に供給して、第2のコピーをパーソナルコンピュータ44等の別の装置に供給するように構成してもよい。ダウンロードで利用可能なリンク28、46の種類に、各コピーを適合させてある。第1のコピーが、MS28のさらに限られた記憶装置や音声再生能力に対して最適化するコーデックで圧縮した、特定したメディアファイルで(帯域幅も考慮に入れてある)、同じ基礎となるメディアファイルの第2のコピーを第2のコーデックで圧縮して、PC44に対するリンク46で利用可能なより大きい帯域幅に最適化するようにできる点で、利点がある。顧客は次に、第2のコピーをRio(登録商標)またはiPod(登録商標)等の専用携帯型デジタル音楽装置へアップロードしてハイファイ携帯型音楽を楽しむこともできる。2つのコピーダウンロード選択肢の詳細については、2004年3月2日出願の、共有米国特許出願第10/792,547号の主題であり、ここに引例として組み込まれている。
特定したメディアファイルのコピーをユーザに提供するには、ダウンロードする実際のファイルまたは楽曲を記憶するファイル/楽曲記憶データベース40と協働する必要がある。署名データベース36が特徴およびファイル/楽曲ID(対応を発見した後でMS26に送信する曲名/作者等)を記憶している場合は、ファイル/楽曲記憶データベース40は、署名データベース36内で一致した特徴に対応する実際のファイル/楽曲を記憶している。2つのデータベース36、40を一体化することもできるが、その必要はない。署名データベース36からのIDを用いて、別のファイル/楽曲データベース40から一意のファイル/楽曲を容易に選択することができる。本発明を上述のように、好ましくはファイル圧縮後に、楽曲のコピーとともにそのIDをMS26のユーザに提供するように拡張する場合は、後者のデータベース40からのファイル/楽曲は、ユーザがダウンロードするものである。
楽曲をこのようにダウンロードする場合は、好ましくは、ネットワーク32内の楽曲データベース40に接続している音楽サービス38がMS26から要求を受信して、要求されたファイル(楽曲、画像、テキスト等)およびメタデータを返送して、記述された形式でファイルを表示する(スタイル、テンプレート、スクリプト等)。音楽サービス38は、楽曲記憶データベース40からデータを照会する。MS26が通信サービス30を介してネットワーク32に接続しているので、これを介してファイルをMS26へ渡す。
音楽サービス38を介してMS26から開始する個別のダウンロードトランザクションをすべて管理するように、ダウンロードサービス42を備えることもできる。ダウンロードサービス42は、記憶データベース40からのファイルのダウンロードをそれぞれ追跡して、課金と著作権規則とが遵守されていることを把握することができる。本発明は、1つのボタンまたはソフトキーを押すというように、MS26のユーザインターフェースUIで1回入力が行われると、自動的に行われるエンドツーエンドトランザクションを検討している。このエンドツーエンドの実施の形態では、この1つの入力により、メディアサンプルの取り込み、特徴抽出、MS26での通話確立を開始して、MS26から抽出した特徴およびメディアサンプルの一部の送信を行う。署名データベース36を用いて、抽出した特徴(MS26が抽出したもの、認識サービス34が抽出したもの)により楽曲を特定して、音楽サービス38または認識サービス34のいずれかがメッセージをMS26に送信して、MSユーザに対して楽曲(例えば、曲名およびアーティスト)を特定する。
好ましくはMS26にもう一回入力を行って、このメッセージにより、音楽サービス38へのリンクも行うので、ユーザは楽曲のダウンロードをMS26に要求することができる。音楽サービスは、楽曲識別子(曲名/アーティストであってもなくてもよく、これを用いて楽曲データベース40から楽曲をデジタルで選択する)を記憶したり、次に識別子を記憶するダウンロードサービス42に送信したりする。MS26が楽曲のダウンロードを要求する場合は、音楽サービス38が一致した楽曲を楽曲データベース40から選択して、通信サービスサーバ30Bを介して、ダウンロードサービス42にMS26ユーザへの課金の調整を通知して、音楽サービス38が楽曲データベース40から特定したダウンロードする楽曲をMS26に供給する。ユーザは、識別メッセージに設定されたリンクを用いて、MS26から直接音楽サービス38にアクセスしてもよいし、PC44からのリンクを用いて、楽曲のよりハイファイのバージョン(異なる圧縮コーデック)を取得したりすることもできる。ブロードバンドまたは他のPCリンク46を介してダウンロードできるのは、ワイヤレスモバイル電話リンク28では現状では帯域幅がそれほど制約されていないからである。
図2Aおよび図2Bは、通信システム20の分散構成要素内のメディアサンプルの分析について大まかに説明するものである。図2Aは、移動局26内での動作を説明するブロック図を示す。メディアサンプル24を、MS26に対する任意の入力としてデジタル化して(201)、MS26は、楽曲認識サービス34が用いるサーバ等とデータ接続を確立する(例えば、ワイヤレスリンク28およびネットワーク32を介する)。MS26はデジタル化された音声入力信号201の前処理(202)を開始して、特徴を抽出する。これを、後からデータパケットとしてサーバに送信する。オプションとして、前処理202により、認識キーを押したり他のユーザ入力を行ったりして処理を開始する直前の入力である信号を開始することができるので、MS26は、連続して音声入力のバッファを行っている。大抵の場合、ユーザは、認識キーを押す前に楽曲をすでに聴いたことがある。
認識に用いられる特徴を、例えば、スペクトル平坦性、スペクトル中心、リズムおよび/またはメロディとすることができる。特徴により、ファイルを分類して特定することができるようにメディアファイルまたはサンプルの内容を特徴づけるもので、MS26に入力する(アナログ)メディアサンプル24を単にデジタルで再構成したものではない。ボコーダを用いること等により、MS26は入力メディアサンプル24をデジタル化するが、単独で特徴抽出を行うものではない。好ましくは、特徴は、再生できないものである。すなわち、単に再処理したり、抽出された特徴を操作したりすることにより、オリジナルメディアサンプルを再生することはできない。非再生特徴により、メディアファイルの内容を記述して特定するが、その内容を再現することはできない。すべての特徴が非再生のものである必要はなく、すべてのインスタンスではないが、MS26で非再生特徴を抽出することにより、大抵の再生特徴より小さなパケット化メッセージを生成して、ワイヤレスリンクを通じて送信する。
適した特徴については、例えばMPEG−7規格に記載されており(ここに記載の音声関連の実施の形態では、ISO/IEC15938、特にISO/IEC15938−4、情報技術−マルチメディアコンテンツ記述インターフェース−パート4:音声(INFORMATION TECHNOLOGY−MULTIMEDIA CONTENT INTERFACE−PART4:AUDIO))、ここに引例として組み込まれている。MPEG−7に関する文献では、用語記述子を用いて、本発明によるMS26が実行する等により、メディアサンプルから直接抽出された特徴を表す。MPEG−7の文献では、用語記述スキームDSまたは記述ツールを用いて、特徴から抽出された記述子を記述する。記述子がメディアサンプルのデジタルバージョンの下位の分析である場合は、記述スキームは高位の分析である(例えば、サンプルから直接抽出したものではなく、記述子間の相互関係から抽出したもの)。MPEG−7は現在改良が加えられているので、以下は、その標準に対するもので、本発明に該当すると現在考えられている、特定の記述子および記述スキームの概要である。
記述子は、下位の特徴の表現であり、音声映像コンテンツの基本的な品質であって、信号振幅の統計的モデル、信号の基本的な周波数、信号に存在するソース数の推定値、スペクトル傾き、情緒的コンテンツ、明確な音声効果モデル、任意の数の具体的または抽象的特徴等である。本発明の好適な実施の形態では、MS26が記述子を抽出する。
記述スキームは、記述子の組み合わせから構成されている。この構造を用いて、ドキュメントに釈をつけたり、ドキュメントの構造を直接表したり、より豊かな表現であるより高位の概念を形成する特徴の組み合わせを生成したりすることもできる。例えば、クラシック音楽DSは、ソナタ形式の音楽的構造を符号化する(例外もありうる)。各種のスペクトル記述子および時間記述子を組み合わせることにより、音色または短い音声効果を記述するのに適したDSを形成することもできる。本発明の好適な実施の形態では、ネットワーク32上のサーバが記述スキームを抽出する。
記述子が、メディアサンプルの内容の1つの特定の特徴的な表現の構文およびセマンティックスを定義すると考えることもできる。例えば、画像ファイルの色が特性である。特徴を記述子または特性とすることもできる。記述子がこの2つのより基本的なもので、特定の特性をいくつかの記述子によってのみ完全に記述することもできる。特性'色'に対応づけられた、考えられる記述子には、色ヒストグラム、赤緑青(RGB)ベクトルまたは列が含まれる。MS26は、特定の記述子の値、任意の値セットの記述子のインスタンシエイションを抽出することもできる。例えば、RGB=(255、255、255)、色列="赤"である。ある記述子は、1種類のメディアファイルに対しては妥当または有効であるが、別のものには有効ではない。例えば、映像メディアサンプルの記述子には、基本構造特性内のグリッドレイアウトおよびヒストグラム、色空間、色特性内の中心的な色、色ヒストグラムおよび色量子化、テクスチャ特性内の空間画像密度分布および均一テクスチャ、形状特性内のオブジェクトバウンディングボックス、領域ベースの形状、等高線ベースの形状および3D形状記述子、およびモーション特性内のカメラモーション、オブジェクトモーション軌跡、パラメータオブジェクトモーション、モーションアクティビティ、およびモーション軌跡側面(例えば、速度、方向、加速度)を含むこともできる。音声サンプルに該当する記述子には、音声注釈特性内のことばおよび音素プラスメタデータの格子、音色特徴内の偶数対数の高調波の比率および高調波動作開始コヒーレンス、およびメロディ特性内のメロディ等高線およびリズムを含むこともできる。
現在、音声サンプルを記述するために、MPEG−7では17の時間的および空間記述子がある。基本、基本スペクトル、信号パラメータ、音色時間的、音色スペクトル、およびスペクトル基準である。なお、音声サンプルの内容を特定する際に、無音記述子が有益であることが証明されている。2つの基本音声記述子は、汎用の時間的にサンプリングしたスカラ値で、全種類の音声サンプルに適用可能である。波形記述子は、一般的に表示を行うために、音声波形包絡線(最小および最大)を記述する。電力記述子は、電力スペクトルとともに、時間的に平滑化した瞬時電力を記述する。これは、信号またはサンプル簡単な概要である。
4つの基本スペクトル音声記述子はすべて、共通基準を共有する、音声信号またはサンプルの1つの時間周波数分析から導出されてものである。これらはすべて、第1の記述子である音声スペクトル包絡線記述子で通知され、これは、2の累乗の除数またはオクターブの倍数で間隔を置いた、対数周波数スペクトルである。この音声スペクトル包絡線は、音声サンプルの短期電力スペクトルを記述するベクトルである。これを用いてスペクトル写真を表示したり、未加工の"聴覚化"データを合成したり、または汎用記述子として検索および比較に用いたりすることもできる。他のスペクトル音声記述子は、対数周波数電力スペクトルの重心(重心または形状)、重心周囲に広がるスペクトル、および多数の周波数帯域または周波数ビンそれぞれのスペクトル平坦性を表す。
2つの信号パラメータ記述子を主に、周期的または準周期的信号に適用する。これらは、音声サンプルの(基本的な周波数信頼度)およびその高調波性を記述する(例えば、音楽的トーンまたは声の音声、金属またはベル様の音声、"f"のような摩擦音または楽器がいくつも重なった音声を区別するため)。
2つの音色時間記述子は音声セグメントの時間的特性を記述するもので、特に音楽的音色の記述に有益である。特性音質は、ピッチおよび音の大きさとは無関係である。このような記述子のあるものは、音声の"動作開始"(無音から最大振幅へ立ち上がる信号が発生するとき)と特徴付け、別のものは信号包絡線または重心を特徴付けるもので、やがては信号エネルギーに注目する場合を表している。後者の記述子は例えば、2つの音色の長さと動作開始とが全く同じである場合に、弱くなっていくピアノの音色と持続するオルガンの音色とを区別することもできる。
5つの音色スペクトル記述子は一次周波数空間におけるスペクトル特徴で、特に音楽的音色の知覚に応用可能である。1つは一次電力スペクトルビンの周波数の電力の重み付き平均で、上記重心記述子と同様のものであるが、異なる音楽楽器の音声の"鋭さ"を識別する。残りの音色スペクトル記述子は、信号またはサンプルの等間隔の高調波成分について作用する。この理由から、記述子を一次周波数空間内で算出する。これは、スペクトル中心、スペクトル変移、およびスペクトル拡散記述子を含む。
2つのスペクトル基準記述子は高次元スペクトル空間の低次元投影を表し、コンパクト化して認識を促進する。このような記述子の1つは、正規化電力スペクトルの特異値から導出される、(潜在的に時間可変および/または統計的に独立した)一連の基準関数である。別のものは(前者と組み合わされた場合に)、等級基準を低くした際に投影を行った後の、スペクトルの低次元特徴を表す。無音セグメントは単に、"無音"の単純な意味(すなわち、重要でない音声)を音声セグメントに添付する。これは非常に単純であるが、とても効果的な記述子である。これを用いることにより、音声ストリームをさらにセグメント化するようにしたり、セグメントを処理しないようにするヒントとして用いたりすることもできる。
合わせて、記述子を用いることにより、スペクトル写真の独立部分空間をコンパクトに表示して表すこともできる。往々にして、これら独立部分空間(またはそれらの群)は、異なる音源と強い相関性がある。従って、空間をあまり使用せずに、スペクトル写真のより突出した点と構造とが得られる。
記述スキームDSは、記述子の間、またはいくつかの周波数ビンまたはスペクトルスライスに対する同じ種類の記述子の間での相互関係を反映している。このように、DSは、記述的重厚感に対するある程度の普遍性を交換する。一旦、十分な数の記述子をMS26でサンプルまたはそのサンプルのセグメントから抽出したならば、デジタル化音声サンプルを送信する必要はない。認識サービス34は、さらに特徴を抽出するための抽出した特徴だけを必要とする。本発明のある実施の形態では、これらのさらに抽出した特徴は、MPEG7のDSに類似したものである。例えば、音声署名DSは、統計的にスペクトル平坦性記述子を集約する。これにより、音声サンプルを正しく自動的に特定するために、一意のコンテンツ識別子を供給することができる。
音色DSは、楽器音声の知覚の記述に向けられたものである。特徴音色は、ピッチと音の大きさとが同じ2つの音声を異なる音声にする知覚特徴である。音色DSは、これら知覚特徴を、数を減らした記述子セットで記述する。これは、以下の概念と関連させてもよい。音声の"動作開始"、"明るさ"または"重厚感"、特定の楽器または楽器群(パーカッション)の高調波、コヒーレント、持続する音声、持続しない音声などである。別の音色DSは、距離基準値を用いて音色時間記述子をスペクトル中心記述子と比較する。
メロディDSは、モノラルメロディ情報の豊かな表現を含んでおり、効率的で、正しく動く、表現豊かなメロディ類似性の照合を促進して、非常に簡潔で、効率的なメロディ等高線表現を行うためのメロディ等高線DS(5段階の等高線間隔が大小、高低、または同じ間隔で量子化されている、隣接する音色の間の間隔差を表すもの)と、より詳細で、完全な、表現豊かなメロディ表現を行うためのメロディシーケンスDS(拡張記述子セットおよびより正確なピッチ間隔符号化)とを含んでいる。これらの一方または両方を拡張して、メロディに関するサポート情報を含むようにしてもよい。これら中心記述子を配列して、歌詞、キー、メータ、開始音等の一連のオプションのサポート記述子を構成して、応用例で所望のように用いることができる。
"認識"DSのあるものは、特に基礎となるメディアファイルの検索および索引付けを促進して、隠れマルコフまたはガウス混合モデル等の統計的モデルを形成する基礎として下位のスペクトル基準記述子を用いるものである。得られる確率論的分級器は、音声および音楽等の音声クラスを幅広く認識したり、男性、女性、トランペット、またはバイオリン等のより狭いカテゴリを特定するように教えたりすることができる。他の応用としては、ジャンル分類および音声認識が含まれる。さらにDSは、音声ストリーム内の話し言葉のコンテンツを詳述する。
さらに、抽出された特徴に関する詳細については、2002年6月27日公開の、米国特許出願第2002/0083060に記載されており、これはここに引例として組み込まれている。MS26での前処理202の量については、特徴ベクトルを全く抽出しないものからすべて抽出するものまでの範囲に設定できる。各特徴を完全に抽出する特徴抽出処理を好ましくは、いくつかの段階に分割する。これらのあるものは、抽出されない信号(例えば、MS26で受信した'生の'音楽サンプル24)と比較するために送信するデータ量を低減することになる。例えば、自己相関ベクトルを瞬時に算出して、時間で平均をとることにより、スペクトル特徴の第1の段階を、デジタル化入力信号201の自己相関の推定とすることができる。次に、次の段階では、さらにフーリエ変換および処理を行うことができる。完全特徴抽出処理を、MS26とサーバ34との間で分割する。MS26は、実行する段階数を選択して、前処理(MSが抽出した特徴)の結果とともに、M個の段階を副情報としてパケット化する(203)。好ましくは、MS26は、抽出する特徴の数および/または種類を適応可能に選択する。この選択は、メディアサンプルの種類(音声、映像、静止画等)および/またはこれらの抽出した特徴を送信するチャネル特性に基づいている。MS26が特徴を全く抽出しなかったメディアサンプル24のセグメントについても、MS26が上述のように送信して、認識サービス34で上述のようにさらに分析してもよい。一般的な無線プロトコル(配座マッピング、誤り訂正、等)に従って、パケットを符号化する(204)。アクセスネットワーク32とMS26の能力とに基づいて、処理能力と送信帯域幅との間の適したバランスを選択する。符号化したパケットを、1つ以上のチャネルを介してワイヤレスリンク28を通じて送信する。
図2Bに示すように、パケットを受信して、復号化する(205)。通信サーバ30Bがワイヤレスリンク28に特有の復号化を行って、インターネットを介するエンドツーエンド音声プロトコル配列で、楽曲認識サービス34がパケットをそれぞれ開けてもよい(206)。次に、楽曲認識サービス34のサーバは、楽曲の特定に必要なパラメータをさらに抽出する(207)。これは、MS26から受信した特徴および/またはやはりMS26が受信したデジタル化メディアサンプルのセグメントから抽出されるものである。図2A〜図2Bの例では、合計でN>M個の特徴を抽出することにより、メディアサンプルの特定を確実に行うことができる。MS26がM個の特徴を抽出して、サーバ34が残りのN−M個の特徴を抽出する。好ましくは、Mは下位の特徴を表し、N−Mは、下位の特徴から抽出され、かつメディアサンプルのデジタル化バージョンから抽出されたものでないより高位の特徴を表す。楽曲認識サービスサーバ34は次に、抽出した特徴と特徴セットとの間で比較を行う(208)。それぞれ、楽曲署名データベース36で記憶した基礎となるメディアファイルを表している。理想的には、データベース内のたった1つの特徴セットが抽出した特徴群と一致し、このように一致した特徴セットが、メディアサンプルを抽出したファイルを表す。抽出した特徴に基づいて、そのN個の抽出した特徴を楽曲署名データベース36が提供した基礎となるファイルの特徴ベクトルまたは特徴セットと比較することにより、メディアサンプル24を認識する。
図3A〜図3Dは、各種のステップ、すなわち本発明による方法の好適な実施の形態を構成するフロー図を示す。フロー図はそれぞれ、図示のように別の図とリンクしている。図3Aは、メディアサンプル24をはじめに受信して処理した、MS26内での方法を説明している。本実施の形態では、メディアサンプルを2つのセグメントに解析している。一方はMS26のバッファに記憶されており、もう一方は、MS26で受信してリアルタイムで処理されるものである。第1のメディアサンプルセグメントをMS26で受信して、デジタル化して、バッファに記憶する(302)。分析を行ったり、入力を処理したりするようにMS26に通知するユーザ入力が行われるまで、ここでの教示に従って、連続して記憶する。ユーザが認識キー304を押して、MS26が3つの機能を行うようにトリガする。好ましくは同時に実行する。MS26が基地局30Aへワイヤレスリンク28を接続し(306)、バッファしたメディアサンプル24の第1のセグメントから下位の特徴を抽出し(308)、メディアサンプルの第2のセグメントを受信し、デジタル化し、下位の特徴を抽出する(301)。第2のセグメントを、一時的に記憶することもできる。MS26は次に、ステップ306で接続したワイヤレスリンク28を通じて、抽出した特徴(適用可能な場合は、上述のように、MS26が特定の特徴を抽出する際に行ったステップ数)を送信する(312)。あるいは、第1のセグメントから特徴を抽出して、可能な場合は第2のセグメントからも特徴を抽出して、抽出した特徴を第2のセグメントとともに送信する。これらは単に、スペクトルスライスまたはデジタル化メディアサンプルの一連のスペクトルスライスである。方法は、図3Bへ続く(314)。
図3Bは、システム20のネットワーク32側でのステップを詳述している。サーバ34は、図3Aのステップ312でMS26から送信したメッセージを受信する(316)。通信サーバ30Bは、パケット化メッセージの無線特有部分を復号化して、好ましくは、ネットワーク32を通じて、実体データを有する未開封パケットを単に再送信してもよい。楽曲認識サービス34は、パケットを開封して、すでに抽出されている下位の特徴を受信して、署名データベース36を検索して、MS26から受信した下位のものと一致する、一意の対応320となる特徴セットを有するファイルを探す(318)。その検索結果を一時的に記憶する。MSが抽出した特徴だけを用いることで一意の対応を探し出せない場合は、インデックスK(ブロック316で開始する)を最大のものと比較する。これを超えない場合は、1つ以上のより上位の特徴を、ブロック326で受信した下位の特徴から抽出する。ブロック328では、サーバが抽出したK番目の特徴を用いて、MSが抽出した特徴(かつブロック318で一時的に記憶したもの)と一致したデータベースからのこれらの特徴セットを検索するので、現在の検索の繰り返しにおいて、全データベース36を再び検索する必要はない。K番目の検索結果を、ブロック322で一時的に記憶する。Kは、ブロック330で索引付けされたものである。一意の対応をやはり発見できない場合は(320)、Kが最大を超えるまで、抽出した特徴を検索するループを継続して、"対応なし"メッセージをMSに送信する(334)。ブロック320で一意の対応を発見した場合は、抽出した特徴に一致するデータベース特徴セットと一意に対応する楽曲またはファイルの曲名(または他のID)を有するという応答メッセージ336を、MS26に送信する。好ましくは、応答メッセージ336は、一致したファイルに向けられたリンクも有している。これは楽曲またはファイル記憶データベース40へのリンクで、このデータベースは署名データベース36を有していてもよいし、いなくてもよい。
好ましくは、MS26がまずその抽出した特徴を送信して、認識サービス34が一意のファイル識別子を有するその応答メッセージ336を送信するまでは、MS26と楽曲認識サービス34との間の通信リンクをオープンにしておく。一実施の形態では、MS26が第1のセットの抽出した特徴を有する第1のメッセージを送信して、認識サービス34がそのデータベースを検索する(特徴をさらに抽出してもよいし、しなくてもよい)。一意の対応を発見できない場合は、認識サービス34は、さらに抽出する特徴の数と種類とを指定する要求メッセージをMS26に送信して、MS26に抽出を要求してもよい(MS26は、バッファに記憶したデジタルバージョンのメディアサンプルから抽出してもよい)。例えば、認識サービス34がデータベースから4つの一致結果を返送したと仮定する。認識サービスは次に、4つの結果を一意に区別する、1つ以上の特定の特徴を求めることができる。信号包絡線または重心等の下位の特徴、または音色時間的重心の間の音色時間的距離等の、より高位の特徴とすることもできる。前者では、認識サービス34は特に、4つの結果を直接区別する特定のスペクトルスライスの重心特徴を要求してもよいし、後者では、認識サービスが次に、4つの結果を区別する特徴(例えば、重心間の距離)をさらに抽出できるように、欠落している音色時間的重心を要求してもよい。MS26は、その第2の抽出で抽出された第2のセットの特徴を有する別のメッセージを送信して、認識サービス34がデータベースを再び検索する。データベースに対してこの第2の検索を行う際に、第2のセットの抽出した特徴、第2のセットから抽出された第2のセットのさらに抽出した特徴、またはこの組み合わせを用いることもできる。このように、データベース検索で一意の対応を返送できない時は必ず、認識サービスが特徴をさらに抽出することを呼び出して、MS26と認識サービス34との間で'対話'を継続することもできる。好ましくは、これらの間の通信リンクをオープンのままにしておく。パケットが送信されていないので、認識サービスがデータベースを検索する間に、パケット切換ネットワークが測定可能な帯域幅を消費する必要がない。
好ましくは、楽曲またはファイルIDおよび対応する音楽サービスURIを通信サービス30A−Bに返送する。これが、MS26への応答メッセージを作成して、SMS/MMSまたは同様のメッセージとしてMS26に送信する。認識サービスサーバ34はまた、MS26の一意の識別子と一致したファイルへのリンクとを有するメッセージ338を音楽サーバ38に送信する(音楽サーバは認識サービスサーバと独立している)。
ブロック342は、図3Cの音楽サーバ38に向かう。音楽サーバ38は、図3Bのブロック338からのメッセージを受信して(344)、MS26は一致したファイルまたは楽曲のダウンロードを直ちに要求しなくてもよいので、ダウンロードマネージャ346でその情報を記憶する(346)。一旦、音楽サーバ38がMS26から要求を受信すると(図3Dを参照)、好ましくは、MS26がその応答メッセージ336を認識サービスサーバ34から受信してまもなく、MS26の一意の識別子をダウンロードマネージャ346に記憶したMSのIDと照合して、一致したファイルに対応付けられたリンクを取り出す(350)。支払い情報(好ましくはそのMS26からの第1の購入に続いて、ファイルに保持され、MSのIDに対応しているもの)を確認して、一致したファイルまたは楽曲をMS26にダウンロードする(352)。購入の送り状をMS26の通信サーバ30Bに提出して(354)、方法のネットワーク側で処理を終了する(356)。
図3Bのブロック340は、さらにMS26から見た図3Dに向かう。MS26は(図3Bの)ブロック336から応答メッセージとリンクとを受信して(358)、リンクとともに楽曲またはファイル曲名または他の識別子を表示する(360)。ユーザはダウンロードキーを押して(362)、場合によっては、同時に表示されうるユーザが記憶したいくつかのリンクを選択した後で、図3Cのブロック348で説明したファイルまたは楽曲に対する要求を送信して(364)、以前に公開したアカウントの貸方借方に対する認可についても構成している。ユーザはMS26でダウンロードしたファイルまたは楽曲を受信して(366)、トランザクションのMS26側で方法を終了する(368)。
図4Aおよび図4Bを参照して、MS26に特有の構成要素について説明する。アナログ音声入力(前述のメディアサンプル24)を受信する第1のトランスデューサすなわちマイク48は、プロセッサ50に接続している。マイク48は、アナログメディアサンプル24をデジタルバージョンに変換して、プロセッサ50が特徴抽出を開始して、コンピュータ読み取り可能主記憶装置54に記憶する。特徴抽出に用いる特定のアルゴリズムを、コンピュータ読み取り可能命令として記憶装置54に記憶することもできる。主記憶装置54は1つのコヒーレント記憶媒体である必要はなく、いくつかの異なる記憶構成要素に分散してもよい。メディアサンプルをバッファ記憶装置52に送って、処理を行う前にサンプルの有限のデータ量を連続して記憶させてもよい。バッファ記憶装置52が直近にマイク48で受信した信号を連続して記憶するので、メディアサンプルがユーザコマンドで抽出された特徴を有する場合は、プロセッサ50は直ちに、バッファメモリ52内に現在あるメディアサンプルのその部分から特徴抽出を開始することができる。このように、楽曲またはファイルを特定するユーザ入力コマンドの直前に、またはリンクに接続した際に、MSに入力したサンプルの一部分またはセグメントから、特徴を抽出することもできる。ユーザコマンドが要求するまで、あるいは要求しない限り、バッファメモリに記憶した信号をさらに処理することがないので、さらに消費する電力は最小限である。
プロセッサ50およびMS26の全構成要素には、充電可能バッテリ56または交換可能燃料電池等の携帯型電源から電源を供給する。ユーザインターフェース58は、プロセッサからの出力をユーザが認識することができるテキストメッセージおよび画像に変換するディスプレイインターフェース58Aと、ユーザ入力機構58B(複数のボタン、表示画面58A内のタッチセンサまたは圧力センサ、または主記憶装置54に記憶した音声認識ソフトウェアを有するマイク48等)を含み、これにより、ユーザがプロセッサ50へのコマンド/要求を入力することができる。同時に送受信を行えないように、プロセッサ50は、スイッチ64を介して送信機60および受信機62に接続している。送信機60および受信機62をそれぞれアンテナ66に接続する。これは、プロセッサ50を覆うハウジング内部でも外部にあってもよい。プロセッサはまた、第2のトランスデューサすなわちスピーカ68でユーザに対して出力することもできる。映像受信を行うために、MS26は、映像メディアサンプルをプロセッサ50に供給するカメラ70または他の画像取込装置を含むこともできる。図示しないが、カメラ70は、マイク48に対応づけられたバッファメモリ52に対して同様の動作を行う映像バッファメモリ(図示せず)に入力を供給することもできる。
本発明によるMS26のユーザインターフェースの特定の側面について、図4Bで詳述する。特に、ディスプレイインターフェース58Aは、ユーザが認識可能な出力を供給する。これは、信号強度、リンクの種類、および/またはバッテリ電圧を示す状態アイコン74を含んでもよい。表示画面58Aはさらに、ユーザが選択でき、強調表示、シェーディング、背景の変更等で示されるテキスト76および符号78を表示する。ユーザ入力機構58Bは、1つ以上のいくつかの異なる形態をとることもできる。英数キーパッド80の1つ、ナビゲーションボタン82、ソフトキー84、または好ましくは専用ボタン86のキー等で、知らないメディアサンプルおよび関連操作を特定するために確保しておく。代替のユーザ入力機構58Bについて、以下に詳述する。英数キーパッド80は当該技術で周知のもので、テキストおよび番号をMS26に入力するために主として用いられる。ナビゲーションボタン82は、表示画面58A上の異なる点にカーソルまたは他のインジケータを移動させる。ソフトキー84は多機能で、該当するソフトキー84に直接隣接する表示画面58A上に通常表示されるコマンドを実行する。
図4Bの説明に従って、図示のMS26がメディアサンプルのデジタルコピーを添付ファイルとして含むEメールを受信したと仮定する。このような場合は、メディアサンプルを受信する手段は、モバイル電話受信機62を含む。メディアサンプルを受信する他の手段は、マイク48またはカメラ70、メディアサンプルをアップロードするPC、サーバ、または同様の装置にMS26がリンクするデータケーブルコンセント、または光学リンク(例えば、赤外線)の受信機、ローカルエリアネットワーク、またはメディアサンプルをワイヤレスでダウンロードするパーソナルエリアネットワーク(例えば、ブルートゥース(Bluetooth(登録商標)))を含む。図示のEメール要求識別のテキスト76とは関係なく、ディスプレイインターフェース58A上にメディアファイル添付ファイルが、符号78として表示されている。選択した符号78のシェーディングで表示画面58A上に示すなどにより、一旦ユーザがメディアファイルを選択すると、該当するユーザ入力機構でさらに入力に入力を行うことにより、プロセッサ50にメディアサンプルからの特徴抽出を開始させる(この例では、受信したメディアサンプルは、特徴を抽出するデジタルバージョンである)。
図4Bは、ユーザがプロセッサ50にメディアサンプルから特徴を抽出させることができる、3つの異なるユーザ入力機構を示している。専用ボタン86を該当するユーザ入力機構として用いる場合は、その専用ボタン86を押すことにより、プロセッサ50に特徴抽出を開始させる。あるいは、ユーザが符号78を選択するとソフトキー84がこれを行うようにしてもよい(機能指示子86を該当するソフトキー84に隣接する表示画面58上に表示してもよい)。ユーザがナビゲーションボタン82の周辺部分で入力を行って符号78を選択した後で、ナビゲーションボタン82の中央部分を押した場合に、ナビゲーションボタン82によりプロセッサに特徴を抽出させてもよい。ソフトキー84はメディアサンプルの特定およびメディアファイルの購入以上の機能を行える点で、ソフトキー84は専用ボタン86と異なっている。図示していないが、表示画面58Aのタッチセンサ部分がユーザ入力機構として機能してもよい。特許請求の範囲で用いられるボタンとして、上記の任意のものが考えられる。マイク48とともに音声認識コンピュータプログラム命令が、プロセッサ50に音声コマンドがあると(例えば"認識")、メディアサンプルから特徴を抽出させる、適切なユーザ入力機構として機能してもよい。好ましくは、特定するメディアファイルに対応する符号78を選択させてもよい。
上述のように、バッファ記憶装置52をMS26内で用いることもできる。ある実施の形態では、プロセッサ50に特徴を抽出させる同じユーザ入力が、さらにバッファ52にストリングを開始させて、マイク48またはカメラ70を通じてメディアサンプルを受信する。入力機構をトランスデューサまたは光電子手段とすることのできる実施の形態では(例えば、データケーブル、ワイヤレス電子または光学リンク)、表示画面上で対応する符号78(または記憶したメディアサンプルの他の表現)を選択した場合に、入力機構がプロセッサに、主記憶装置または記憶媒体54に記憶したメディアサンプルから特徴を抽出させたり、符号78が全く選択されない場合には、トランスデューサでの入力から特徴を抽出させたりしてもよい。これにより、ユーザが複数の入力を行って、プロセッサに対して適切なメディアサンプルを指示する必要が回避される。
好ましくは、MS26はまた、プロセッサに特徴を抽出させる同じユーザ入力に応答して、ワイヤレス電話リンク28を通じて抽出した特徴を有するメッセージを送信する。ネットワーク32と、サーバ30B、34、38、42と、データベース36、40とを有する上述のシステム全体の場合では、抽出した特徴を有するメッセージを、認識サービスサーバ34のネットワークアドレス(例えば、ウェブページ)に送信する。(例えば、メディアサンプルと一致するメディアファイルを特定する)サーバ34からのメディアサンプルを特定する応答メッセージの受信に応答して、表示画面58Aは自動的にメディアサンプルの識別子を表示する。この識別子を好ましくは、応答メッセージから直接抽出する。この識別子を、曲名、アーティスト/曲名の組み合わせ、トラック番号およびCD曲名の組み合わせ、アルバムリリース日、ジャンル、アーティスト記述等のテキスト識別子とすることもできる。類似のテキスト識別子を、音楽または可聴関連メディアファイルと一致しない他の特定したメディアサンプル(画像サンプル等)として表示することもできる。識別子を、アルバムの表紙、アーティストの画像、メディアファイルから抽出した呼び出し音にリンクするアイコン等の画像としてもよいし、さらに加えてもよい。デジタルメディアサンプルは、特徴およびサーバを介した1つのメディアファイルに一意に一致するものであることが好ましいが、必ずしも識別子がメディアサンプルを一意に特定する必要はない。例えば、サーバが、デジタルメディアサンプルから抽出された特徴とそれぞれ一致する、3つのメディアファイルを返送した場合には、場合によっては、識別子それぞれに添付されたメディアファイルのサンプルクリップを有する、3つのメディアファイルの識別子をすべて、MS26に送信してもよいので、ユーザがクリップを聴いて、ダウンロードを希望するメディアファイルを選択してもよい。あるいは、サーバは、デジタルメディアサンプルと一致する1つのメディアファイルではなく、アルバムの全トラックを購入できるようにリンクしているアルバムの表紙のアイコンを返送してもよい。
一旦、識別子を表示画面58A上に表示すると、ユーザ入力機構82、84、86、48(後者は音声認識用)での別のユーザ入力により、送信機に、メディアサンプルの基礎となるメディアファイルのコピーの購入を許可するメッセージを送信させる。応答メッセージで特定したもので、上述のように、ファイル記憶データベース40に記憶したものであってもよい。応答メッセージの送信者は、ワイヤレス電子購入トランザクションを容易にする、メディアファイルを購入するリンク、購入契約および条件、価格、および他の情報を入れることも期待されている。ユーザが以前に交わしたこのようなトランザクションのより一般的な側面について合意したならば、送信者はその情報を一部だけを送信することもできる。この認可メッセージを送信するユーザ入力機構は、専用ボタン86またはソフトキー84であってもよい。応答メッセージの受信および/または識別子を表示する際に、該当するボタン86、84の機能が自動的に切り替わる。このように、該当するボタン86、84により、少なくとも2つの機能を起動する。特徴抽出(好ましくは特徴の送信)と、特定したメディアファイルのコピーの購入認可の送信とである。専用ボタン86を用いる場合には、好ましくはその機能を、メディアサンプルの特定(例えば、特徴抽出および送信)と、メディアファイルの購入とに限って確保しておく。サンプルを特定するソフトキー84またはナビゲーションボタン82の現在の機能を設定するために、ユーザが複数の入力を行う必要がないという点で、専用ボタンが好ましい。これは、リアルタイムで聴いた任意の未確認のメディアサンプル(例えば、マイクを介した放送無線入力を通じて聴いた楽曲)が、その性質上消失しやすいものであるからである。このような専用ボタン86はさらに、ボタン自体の上、またはその限定された機能を特定する専用ボタン86にすぐ隣接する位置にあるMS26のハウジング上に、常設のしるし90を備えていてもよい。
好ましくは、認可メッセージは、メディアファイルの識別子(単に、応答メッセージで受信する署名データベース36または記憶データベース40内のアドレスとすることもできる)と、クレジットまたはデビットカードの基礎となる財務口座の貸方借方の認可とを含む。購入トランザクションを有効にするのに必要な口座の明細(例えば、クレジットカード番号、有効期限、課金アドレス等)は、認可メッセージ内に含めてもよいし、サーバ42に記憶してもよいし、認可メッセージに含まれるセキュリティコードを用いて呼び出すこともできる。好ましくは、応答メッセージを受信した直後に認可メッセージ(その発信ユーザ入力)開始する必要はないが、認可メッセージにより、特定したメディアファイルをMS26にすぐにダウンロードすることを許可する。ユーザが記憶したEメール等を主記憶装置52に記憶させて応答メッセージおよびテキスト識別子を記憶させたり、メディアファイルを購入してから呼び出したりしてもよい。
図5は、MS26で入力をバッファすることにより得られる利点を示すタイムチャートである。スタート502で開始するMS26で、メディアサンプル501を受信する。ユーザは、スタート502から聴取を開始して、コピーを希望する楽曲またはファイルであると確定してから、ユーザは、例えば、要求時間504で専用認識ボタン86を押す。MS26がその前処理を行うのに、最小(時間限定)メディアサンプルΔT必要であると仮定する。これは処理時間ではなく、楽曲全体またはファイルを特定するのに十分な特徴を抽出するために必要な楽曲(例えば、10秒間)の量である。バッファ52を用いる場合には、ΔTはユーザ要求時間504に先行する時間506から開始し、必要な最小サンプル時間は、バッファしたサンプル終了時間508までである。バッファを全く行わない場合は、メディアサンプルを取り込める最も早い時間は、要求時間504である。次に、必要な最小サンプル時間は、バッファしたサンプル終了時間508よりも遅い、時間の510で終了する。時間量によるが、MS26は、メディアサンプル24のバッファしたセグメントを処理するのに時間がかかるので、2つの終了時間508、510の間の差512は、メディアサンプル開始時間506、504の間の差と同じである。MS26は好ましくは、前処理した特徴を送信して、応答メッセージを受信する連続ワイヤレスリンク28を維持しているので、遅延を低減することにより、この差512は、ユーザの経験により向上することができる。
以上のことから、本発明は特に、入力メディアサンプルから特徴抽出を行うように適用した、ユーザインターフェースおよび移動局を含む。入力は、アナログでもデジタルでもよい。メディアサンプルを特定する新規の機能は、MS26の1つのボタンにおかれ、これは専用ボタン(86)であってもなくてもよい(84、82)。ボタンを押すことにより、MS26で特徴抽出と送信とを行い、応答メッセージを受信すると直ちに、(正式には未確認の)メディアサンプルの基礎となるメディアファイルのテキスト識別子を自動的に表示する。さらに、特定したことを示す応答メッセージを受信して、テキスト識別子を表示すると、同じボタンまたは別のボタンを用いることにより、メディアファイルの購入を有効にすることもできる。
請求した発明の好適な実施の形態として現在考えられるものについて示し、説明してきたが、当業者にとって、多数の変更および変形が考えられるであろうことが明らかである。これらの変更および変形のすべては、請求した発明の精神および範囲内にある。
本発明を実施する場合の通信システムの概略全体図である。
2A, 図2Bは、移動局およびサーバそれぞれの間で配信される、メディアサンプルの特徴抽出を示すブロック図である。
図1の通信システムで行われる動作の詳細を示す連続フロー図の一部分である。図3Aは、移動局内でのステップを表し、図3Bは、サーバ内でのステップを表し、図3Cは、メディアファイルをダウンロードして購入させるためのサーバ内でのステップを表し、図3Dはさらに、サーバに応答した移動局内でのステップを表す。
本発明の教示により構成した移動局の概略ブロック図である。
専用メディアサンプル認識ボタンを含む、本発明によるユーザインターフェースの詳細を示す、移動局の平面図である。
移動局で入力を連続バッファする利点を説明する概略のタイムチャートである。