JP2007531933A

JP2007531933A - 移動局および入力メディアサンプルから特徴抽出可能に構成したインターフェース

Info

Publication number: JP2007531933A
Application number: JP2007504504A
Authority: JP
Inventors: トニコプラ; ミッコマキパア; マウリバアナネン
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2004-03-26
Filing date: 2005-03-22
Publication date: 2007-11-08
Also published as: KR20090103959A; BRPI0509544A; KR20070005696A; CA2561147C; WO2005093622A1; CA2561147A1; EP1743285A1; ATE510271T1; EP1743285B1

Abstract

移動局は、プロセッサと、プロセッサに、デジタルメディアサンプルから少なくとも１つの特徴を抽出させるボタン等のユーザ入力機構とを有する。スペクトル中心等の特徴は、メディアサンプルの内容のアイデンティティを記述する。好ましくは、特徴抽出させる同じユーザ入力により、送信機にリンクを接続させて、メッセージをネットワークアドレスに送信させる。メッセージは、それからはデジタルメディアサンプルが再構成されない抽出した複数の特徴を有する。応答メッセージが、メディアサンプルと一致するメディアファイルを特定した場合は、同じボタンまたは異なるボタンで別のユーザ入力を行って、応答メッセージで特定し、複数の抽出し送信した特徴と正確に一致する特徴を有するメディアファイルのコピーを、移動局にダウンロードするように、認可メッセージを送信させる。
【選択図】図４Ｂ

Description

本発明は、入力メディアサンプルのデジタル処理を行うワイヤレス無線電話装置に適用する分野に関し、特に、かかる装置と、ポピュラーソングの一節等の入力メディアサンプルから特徴抽出ができるように構成したユーザインターフェースとに関する。

近年、ポピュラー音楽の所有者は、著作権のある作品のデジタルコピーを、インターネット等の電子ネットワークを通じてダウンロードすることを取り入れている。このようなダウンロードを行う一般的なウェブサイトの一つとして、http://www.apple.com/itunes/がある。ここでは、パーソナルコンピュータ（ＰＣ）等を介してユーザがウェブサイトを訪れて、曲名を手入力で選択して、選択した楽曲のデジタルバージョン（例えば、ＭＰ３、ＡＡＣ）を、このウェブサイトへのアクセスに使用したＰＣにダウンロードする。ユーザは次に、楽曲をＰＣで再生したり、ｉＰｏｄ（登録商標）または他の専用デジタル音楽プレーヤ等の携帯装置に送信したりする。

近年、ユーザがウェブページ上でその曲名により楽曲を手入力で選択する必要のない、第２世代の音楽ダウンロード技術が販売されるようになった。その代わりに、サーバまたはウェブサイトに対応づけられた他のコンピュータに楽曲を'聴かせ'て、デジタルで分析して、その特定の楽曲をデジタル音楽データベースから特定する。例えば、http://shazam.com/uk/do/help_faqs_shazam#4のウェブサイトでは、その動作を次のように説明している。例えばパブや車内にいるユーザが楽曲を聴いていて、楽曲が演奏されている間にユーザの移動局（ＭＳ）にコードを入力する。標準ＭＳリンクを通じて、音声入力を送信するというように、その楽曲をshazam.com等のホストウェブサイトに送信する。すなわち、マイクへの任意の入力を変換するように、ＭＳからshazam.comサイトに送信したメッセージは、ＭＳのボコーダが変換した入力アナログ音楽サンプルである。ホストウェブサイトは、（変換した）未処理の音楽入力を受信して分析して、そのデータベース内の楽曲の１つと照合する。shazam.com技術は、アナログ入力をデジタルに変換して、変換した信号をパケット化して、単なるパイプとして移動局を用いるサーバで楽曲を特定することと、結果を移動局に返送することとに限定されているように見える。さらに、ワイヤレスリンクが確立するまでは、サンプルを特定するための処理を行わないように見えるので、楽曲の後半部分のみを聴いているユーザが、楽曲が終了する前に確立したリンクを有していない場合もある。

大抵の音楽ダウンロードサービスへはパーソナルコンピュータを介してアクセスするが、モバイル無線（Ｏｖｅｒ−Ｔｈｅ−Ａｉｒ（ＯＴＡ））ダウンロードサービスも導入されている。モバイル装置には、画面サイズが小さいことと、電源供給が限られていることと、データ接続の信頼性および速度とに制限があり、これらのことにより、音楽を見つけて音楽サービスからモバイル端末へ音楽を配信することが困難になっている。通常、真の音楽サービスを行うには、少なくとも５００，０００楽曲を収集している。モバイル装置ユーザインターフェースを用いてこのサイズの音楽カタログを検索することは難しく、連続表示により内容を画面に合わせる必要がある。これにより、階層が深くなり、音楽発見が困難になる。

パブや、コンサートホールや、車のラジオなどから、人々が公共の場所で音楽を聴くことは、一般的なことである。従来から、ある特定の音楽に関心を持つようになるが、楽曲の曲名がわからないことがある。次に、友人やレコード店の店員に尋ねたり、楽曲の曲名をたまたまラジオ放送で聴いてアーティストと曲名とを見つけ出したりして、楽曲を特定する。shazam.comサイト（上記）を用いて、対応付けられたサービス番号に電話をかけて、移動局を通じて生'放送'としてその楽曲を再生することにより、その楽曲を特定することもできる。次に、レコード店に出向いたり、shazam.comまたは同様の識別サービスから返送された識別に基づいて、インターネットサービスからその楽曲を購入したりする。しかしながら、以下の、１）音楽サンプルを聴く（刺激）、２）楽曲を特定する、３）購入するために楽曲を見つける（識別に基づく）、４）楽曲のコピーを購入する、５）購入したコピーを配信して自分の音楽コレクションに追加するという工程が必ず必要になる。

１）から３）までの工程は、手入力による従来の方法である。インターネットベースの音楽購入により、４）および５）の工程が自動化される。shazam.com等のサービスにより、工程１）の電子'聴取'に基づく工程２）が自動化される。しかしながら、発明者が知っている上記の工程を行うためのすべての従来技術のアプローチには、楽曲を特定してコピーを購入したい希望者による手入力工程が必要になる。本発明は、上記の処理をさらに簡素化して自動化することを求める。

非常に大量のデジタルファイルが作成され蓄積されているので、デジタルファイルを特定する方法を標準化する必要が生じている。マルチメディアファイルの内容を特定する情報の表現を標準化する、ＭＰＥＧ−７が動画像符号化専門家会合（ＭＰＥＧ）により開発されている。これは、情報、すなわち内容自体と対照的に、データベースのカテゴリー分類および検索にあまり適していない。ＭＰＥＧ−７が標準化アプローチになるかならないかにかかわらず、マルチメディアファイルを効率的に索引付けし、検索し、取り出す開発中のツールを記述するものである。ここでは、本発明により、音楽または他の媒体の特定および購入をいかに自動化するかを以下で説明する際の例示の方法として、このようなツールを用いる。

発明のまとめ

本発明は、ユーザが、ラジオ放送などで聴いたことのある、そのメディアファイルの未確認のメディアサンプルのみを有している場合に、デジタル楽曲ファイル等のメディアファイルの特定および購入を容易にするように特に構成した、移動局または他の携帯電子装置と、ユーザインターフェースとを提供する。

一側面では、本発明を、プロセッサとユーザ入力機構とを備える移動局で実施する。以下で詳細に説明するように、サンプルの特定およびファイルの購入に関する機能に確保した専用ボタン等のユーザ入力機構は、デジタルメディアサンプルから少なくとも１つの特徴を抽出させるように構成されている。Ｅメールを介して受信したり、短いメッセージサービスメッセージに添付されたりしたデジタルメディアサンプルで、デジタルメディアサンプルを移動局外部から送信したり、ＦＭラジオ放送からマイクで入力を受信したモバイル装置で、移動局がデジタルメディアサンプルに変換したアナログメディアサンプルとして送信したりすることもできる。特徴は、メディアサンプルの内容のアイデンティティを記述するもので、メディアサンプルをある形態から別の形態へ変換するボコーダを通じて区別する。ここで説明する特徴の例としては、波形包絡線、高調波周波数、スペクトル中心、および無音、その他を含む。好ましくは、移動局はまた、送信機を備える。入力機構による１回のユーザ入力により、プロセッサに特徴を抽出させ、ネットワークへのワイヤレスリンクを起動させて、送信機に、リンクを通じてプロセッサが抽出した特徴を送信させるように、移動局を構成する。移動局は好ましくは、メディアサンプルのテキスト識別子を表示する、ディスプレイインターフェースまたは画面を備えると利点がある。このような表示は、ネットワークからリンクを通じて受信機で応答メッセージを受信することに応答する。応答メッセージは、抽出した特徴の送信に応答し、応答メッセージは、メディアサンプルと一致するメディアファイルの識別子を含む。本発明の側面について、さらに補足して説明する。

別の実施の形態では、本発明は、携帯電子装置のユーザインターフェースである。ユーザインターフェースは、ユーザ入力ユーザ入力機構でが１回行われると、携帯電子装置内部のプロセッサに２つの動作を行わせる、ユーザ入力機構を有する。この１回のユーザ入力により、デジタルメディアサンプルから複数の特徴を抽出させ、抽出した複数の特徴を装置外部に送信させる。デジタルメディアサンプルは装置への入力等であってもよく、または、装置が入力であるアナログメディアサンプルをデジタルに変換してもよい。ユーザインターフェースはさらに、メディアサンプルが対応するメディアファイルのテキスト識別子、すなわち、抽出された特徴が複数の抽出し送信した特徴と正確に一致する、メディアファイルを構成するメディアファイルのテキスト識別子を表示する、表示画面を含む。しかしながら、このことは、移動局が実際にはメディアファイルを構成する特徴を抽出して、デジタルメディアサンプルを構成する抽出された特徴と比較することを意味するものではない。それ自体が送信した特徴の応答である応答メッセージの受信に応答して、テキスト識別子を表示する。好ましくは、ユーザ入力機構はまた、応答メッセージの受信に続いて、装置外部に認可メッセージを送信させてもよい。認可メッセージには、応答メッセージで受信したメディアファイル識別子と、携帯電子装置にメディアファイルのコピーをダウンロードする要求とが含まれる。しかしながら、好ましくは、この認可メッセージを、特徴を抽出し送信を開始したユーザ入力を行うことで起動しない。

添付の図面とともに以下の説明を参照して、これらの側面、他の側面、本発明の実施の形態の利点について、明らかになるであろう。しかしながら、図面は単に説明のためのものであって、本発明の制限を意味するものではないことを理解されたい。

詳細な説明

本発明は、モバイル電話機能を有する移動局（または他の携帯電子装置）と、そのユーザインターフェースとに向けられている。ユーザインターフェースにより、マイクを介したアナログサンプル入力またはＥメール受信またはＰＣへのケーブル接続を介したアップロードによるデジタルサンプル入力等の任意の手段により、媒体局へ入力したメディアサンプルをユーザが容易に特定できるようにする。図１および図３Ａ〜図３Ｄおよび関連する記述は、好ましくはＭＳが動作するシステムを説明するもので、２００４年月２６日出願の、共有の同時継続出願である米国特許出願第１０／８１０，９２４号の主題である。図２Ａ〜図２Ｂは、対象のメディアサンプルを特定するための配信特徴抽出を説明するもので、図２ＡはＭＳ部分を説明している。図４Ａ〜図４Ｂおよび図５は特に、主として本発明のＭＳおよびユーザインターフェースに関連している。

ここで用いられる用語を説明することにより、以下の詳細な説明を十分に理解するであろう。メディアサンプルは、分析を行う、任意のサイズの音声、映像、または音声／映像信号の一部である。メディアサンプルは、アナログであってもよいし（人が識別できる、ＭＳのトランスデューサで受信した音楽セグメントまたはＭＳに組み込まれたアナログ無線受信機で受信したＦＭ放送無線信号）、またはデジタルであってもよい（ケーブルまたはワイヤレスリンクを通じてＭＳにダウンロードまたはアップロードしたファイル）。以下では、時間限定セグメントの楽曲として説明を行う。例えば、従来のＦＭラジオで通常放送される、３分間の楽曲の連続またはコヒーレントの１０秒間のセグメントである。そのサンプル、またはそのデジタルバージョンの特徴は、そのデジタル分析から収集または抽出されたようなサンプルの内容のデジタルマーカ、記述子、または他の識別子である。時点とは、サンプル内の時系列的インスタントである。特徴は、しばしば時点に対応づけられている。例えば、サンプル内で最大振幅が一回だけ発生する時点、繰り返しの周波数パターンが等間隔で開始する時点、特徴的なパーカッションシーケンスが特定可能な低音域シーケンスが終了してから一定のオフセットタイムで発生する時点等である。以下に、特徴についてより詳細な説明を行う。サンプルの様々な特徴を定量化するために、特徴をサンプルから抽出する。音楽の例では、楽曲データベースを検索して、数千または何百万もの楽曲の中からサンプリングした楽曲の曲名（またはバージョン、アーティスト等）を特定するために、楽曲サンプルの特徴を抽出する。データベースが楽曲全体から以前に抽出された特徴を含んでいる場合は、現在のサンプルから抽出された特徴と以前に抽出した特徴との間で１対１の比較を行うこともできる。このように、全体の中の比較的小さなサンプルだけで楽曲を特定することができる。特徴をメディアサンプルまたはそのサンプルのデジタルバージョンから抽出することもできるが、すでに抽出した特徴からさらに特徴を抽出することもできる。例えば、メディアサンプルまたはそのサンプルのデジタルバージョンから抽出された第１のセットの特徴は、それら特徴の間のある自己相関を示すものである。その自己相関を、第１のセットの抽出した特徴だけを分析して求める。

本発明を実施する通信システム２０を図１に示す。ＦＭラジオ等のメディア源２２が、楽曲の一部分等のメディアサンプル２４を供給する。移動局ＭＳ２６またはワイヤレス通信機能、特にワイヤレス電話機能を有する同様の携帯装置が、メディアサンプル２４を受信してデジタル化して、処理を行って送信する。ＭＳ２６を介して楽曲全体を受信することもでき、メディアサンプルまたはそのデジタル化バージョンが、ＭＳ２６が本発明に従って動作する部分である。ＭＳ２６が、少なくともある部分のメディアサンプル２４のデジタルバージョンを生成して、１つ以上の特徴をそれから抽出して、これらの特徴を、ワイヤレスリンク２８を通じて通信サーバ３０Ｂと通信を行う基地局３０Ａを含む通信サービス３０に送信する。

通信サービス３０が、ＭＳ２６から基地局３０Ａで通話を受信して、通話を監視して、ＭＳ２６から民間楽曲認識サービス３４へ通信を転送する。通信サービスは、用いる通信方法の種類によりＭＳ２６から受信した正確な信号を変更してもしなくてもよい（復号化、展開、特定およびエラー補正等）が、基礎となる実データを変更しないで、特徴を送信する。また、以下で詳細に説明するように、通信サービス３０は、ＭＳ２６が受信する短い応答メッセージの作成を行う。

楽曲認識サービス３４が、通信サービス３０を介してＭＳ２６の送信を受信する。好ましくは、この送信は、楽曲認識サービス３４でさらに分析するメディアサンプル２４の特徴を含んでいる。あるいは、ＭＳが抽出した特徴をサンプルの別のセグメントとともに送信して、認識サービス３４がこれからさらに特徴を抽出する。ＭＳの処理能力およびバッテリ効率が増加すると、ＭＳ２６からの送信には、認識サービス３４がさらに特徴抽出を行う必要がないほど広範囲にわたる特徴が含まれることになる。送信とは、ＭＳ２６を介して全メディアサンプル３４を単に電話によりその場で供給するというものではない。とにかく、楽曲認識サービス３４が送信を受け取って、ＭＳ２６から受信したメッセージから該当する特徴をさらに抽出したりして、そのメッセージ内で受信した、ＭＳが抽出した特徴と組み合わせる。

楽曲署名データベース３６は、楽曲認識サービス３４有していてもいなくてもよいが、これは、（ＭＳ２６および認識サービス３４の両方により）メディアサンプル３４から抽出された特徴の全セットを比較するデータベースである。このデータベースは好ましくは、その基礎となるメディアファイルまたはサンプルから抽出された複数の特徴を、多数のファイルそれぞれに対して記憶する。これら格納した特徴セットを用いて、メディアサンプル２４を署名データベース３６全体から抽出する、基礎となるファイルを一意に特定することもできる。あるいは、署名データベース３６は、ファイルまたは楽曲それぞれに対して、いくつかの抽出された一意でない特徴および基準サンプル（基礎となるファイルまたは楽曲を一意に特定する組み合わせ）、また他の楽曲またはファイルからデータベース内の１つの楽曲またはファイルを一意に特定する任意の他の手段を記憶してもよい。

楽曲認識サービス３４は、オリジナルサンプルを楽曲署名データベース３６に格納したサンプルと比較して、ＭＳ２６が送信した特徴と唯一一致するものを楽曲署名データベース３６の中から探し出す。ＭＳ２６および認識サービス３４はそれぞれ特徴を抽出するが、楽曲認識サービス３４は２つの別々の機能を実行する。抽出した特徴を用いてデータベースを検索することと、メディアサンプルの送信された部分からさらに特徴を抽出することとである。好ましくは、認識サービス３４はこれら２つの機能を並行して行う。楽曲認識サービス３４がはじめにＭＳ２６が以前に抽出した特徴を用いて署名データベース３６を検索した場合は、一意の楽曲を特定することはないが、最初の検索で用いる特徴の数により、署名データベース３６で一致する候補を基本的により小さなサブセットに減らす。同時に、認識サービス３４は、ＭＳ２６が送信したその部分のメディアサンプル２４からさらに特徴を抽出する。さらに特徴をそれぞれ抽出しながら、一意の対応を探し出すまで、一致する候補のサブセットを減らす。この時点で、認識サービス３４はさらに特徴を抽出することを終了して、メディアサンプル２４を署名データベース３６内のメディアファイルと照合するのに必要な全処理を最小限にする。

あるいは、その代わりに、認識サービス３４ははじめにＭＳ２６が送信したメッセージからさらに特徴を抽出して、抽出した特徴をＭＳ２６から受信した特徴とまとめて、全署名データベース３６を一度だけ検索して、一意の対応を探す。この選択は、ユーザに対する応答性（データベースの検索時間）と、認識サービスが多数のＭＳから同時に送信される多数のメッセージからさらに特徴を抽出する利用可能な処理能力との間の市場主導型バランスに基づいている。

一旦、一意の対応を発見すると、認識サービス３４は、サンプル識別メッセージ（これは、対応がないという特定該当なしメッセージでもある）をＭＳ２６に通信サービス３０を介して送信する。ＭＳ２６は、曲名およびアーティストを表示ユーザインターフェースＵＩに表示して、楽曲または他のメディアファイルの名称をユーザに知らせる。

好ましくは、本発明は、楽曲またはメディアファイルを単に特定することばかりでなく、自動的にリンクを提供して、ユーザがその特定したメディアファイルのコピーを購入して、ＭＳ２６の顧客がダウンロードできるように拡張する。あるいは、第１のコピーをＭＳ２６に供給して、第２のコピーをパーソナルコンピュータ４４等の別の装置に供給するように構成してもよい。ダウンロードで利用可能なリンク２８、４６の種類に、各コピーを適合させてある。第１のコピーが、ＭＳ２８のさらに限られた記憶装置や音声再生能力に対して最適化するコーデックで圧縮した、特定したメディアファイルで（帯域幅も考慮に入れてある）、同じ基礎となるメディアファイルの第２のコピーを第２のコーデックで圧縮して、ＰＣ４４に対するリンク４６で利用可能なより大きい帯域幅に最適化するようにできる点で、利点がある。顧客は次に、第２のコピーをＲｉｏ（登録商標）またはｉＰｏｄ（登録商標）等の専用携帯型デジタル音楽装置へアップロードしてハイファイ携帯型音楽を楽しむこともできる。２つのコピーダウンロード選択肢の詳細については、２００４年３月２日出願の、共有米国特許出願第１０／７９２，５４７号の主題であり、ここに引例として組み込まれている。

特定したメディアファイルのコピーをユーザに提供するには、ダウンロードする実際のファイルまたは楽曲を記憶するファイル／楽曲記憶データベース４０と協働する必要がある。署名データベース３６が特徴およびファイル／楽曲ＩＤ（対応を発見した後でＭＳ２６に送信する曲名／作者等）を記憶している場合は、ファイル／楽曲記憶データベース４０は、署名データベース３６内で一致した特徴に対応する実際のファイル／楽曲を記憶している。２つのデータベース３６、４０を一体化することもできるが、その必要はない。署名データベース３６からのＩＤを用いて、別のファイル／楽曲データベース４０から一意のファイル／楽曲を容易に選択することができる。本発明を上述のように、好ましくはファイル圧縮後に、楽曲のコピーとともにそのＩＤをＭＳ２６のユーザに提供するように拡張する場合は、後者のデータベース４０からのファイル／楽曲は、ユーザがダウンロードするものである。

楽曲をこのようにダウンロードする場合は、好ましくは、ネットワーク３２内の楽曲データベース４０に接続している音楽サービス３８がＭＳ２６から要求を受信して、要求されたファイル（楽曲、画像、テキスト等）およびメタデータを返送して、記述された形式でファイルを表示する（スタイル、テンプレート、スクリプト等）。音楽サービス３８は、楽曲記憶データベース４０からデータを照会する。ＭＳ２６が通信サービス３０を介してネットワーク３２に接続しているので、これを介してファイルをＭＳ２６へ渡す。

音楽サービス３８を介してＭＳ２６から開始する個別のダウンロードトランザクションをすべて管理するように、ダウンロードサービス４２を備えることもできる。ダウンロードサービス４２は、記憶データベース４０からのファイルのダウンロードをそれぞれ追跡して、課金と著作権規則とが遵守されていることを把握することができる。本発明は、１つのボタンまたはソフトキーを押すというように、ＭＳ２６のユーザインターフェースＵＩで１回入力が行われると、自動的に行われるエンドツーエンドトランザクションを検討している。このエンドツーエンドの実施の形態では、この１つの入力により、メディアサンプルの取り込み、特徴抽出、ＭＳ２６での通話確立を開始して、ＭＳ２６から抽出した特徴およびメディアサンプルの一部の送信を行う。署名データベース３６を用いて、抽出した特徴（ＭＳ２６が抽出したもの、認識サービス３４が抽出したもの）により楽曲を特定して、音楽サービス３８または認識サービス３４のいずれかがメッセージをＭＳ２６に送信して、ＭＳユーザに対して楽曲（例えば、曲名およびアーティスト）を特定する。

好ましくはＭＳ２６にもう一回入力を行って、このメッセージにより、音楽サービス３８へのリンクも行うので、ユーザは楽曲のダウンロードをＭＳ２６に要求することができる。音楽サービスは、楽曲識別子（曲名／アーティストであってもなくてもよく、これを用いて楽曲データベース４０から楽曲をデジタルで選択する）を記憶したり、次に識別子を記憶するダウンロードサービス４２に送信したりする。ＭＳ２６が楽曲のダウンロードを要求する場合は、音楽サービス３８が一致した楽曲を楽曲データベース４０から選択して、通信サービスサーバ３０Ｂを介して、ダウンロードサービス４２にＭＳ２６ユーザへの課金の調整を通知して、音楽サービス３８が楽曲データベース４０から特定したダウンロードする楽曲をＭＳ２６に供給する。ユーザは、識別メッセージに設定されたリンクを用いて、ＭＳ２６から直接音楽サービス３８にアクセスしてもよいし、ＰＣ４４からのリンクを用いて、楽曲のよりハイファイのバージョン（異なる圧縮コーデック）を取得したりすることもできる。ブロードバンドまたは他のＰＣリンク４６を介してダウンロードできるのは、ワイヤレスモバイル電話リンク２８では現状では帯域幅がそれほど制約されていないからである。

図２Ａおよび図２Ｂは、通信システム２０の分散構成要素内のメディアサンプルの分析について大まかに説明するものである。図２Ａは、移動局２６内での動作を説明するブロック図を示す。メディアサンプル２４を、ＭＳ２６に対する任意の入力としてデジタル化して（２０１）、ＭＳ２６は、楽曲認識サービス３４が用いるサーバ等とデータ接続を確立する（例えば、ワイヤレスリンク２８およびネットワーク３２を介する）。ＭＳ２６はデジタル化された音声入力信号２０１の前処理（２０２）を開始して、特徴を抽出する。これを、後からデータパケットとしてサーバに送信する。オプションとして、前処理２０２により、認識キーを押したり他のユーザ入力を行ったりして処理を開始する直前の入力である信号を開始することができるので、ＭＳ２６は、連続して音声入力のバッファを行っている。大抵の場合、ユーザは、認識キーを押す前に楽曲をすでに聴いたことがある。

認識に用いられる特徴を、例えば、スペクトル平坦性、スペクトル中心、リズムおよび／またはメロディとすることができる。特徴により、ファイルを分類して特定することができるようにメディアファイルまたはサンプルの内容を特徴づけるもので、ＭＳ２６に入力する（アナログ）メディアサンプル２４を単にデジタルで再構成したものではない。ボコーダを用いること等により、ＭＳ２６は入力メディアサンプル２４をデジタル化するが、単独で特徴抽出を行うものではない。好ましくは、特徴は、再生できないものである。すなわち、単に再処理したり、抽出された特徴を操作したりすることにより、オリジナルメディアサンプルを再生することはできない。非再生特徴により、メディアファイルの内容を記述して特定するが、その内容を再現することはできない。すべての特徴が非再生のものである必要はなく、すべてのインスタンスではないが、ＭＳ２６で非再生特徴を抽出することにより、大抵の再生特徴より小さなパケット化メッセージを生成して、ワイヤレスリンクを通じて送信する。

適した特徴については、例えばＭＰＥＧ−７規格に記載されており（ここに記載の音声関連の実施の形態では、ＩＳＯ／ＩＥＣ１５９３８、特にＩＳＯ／ＩＥＣ１５９３８−４、情報技術−マルチメディアコンテンツ記述インターフェース−パート４：音声（ＩＮＦＯＲＭＡＴＩＯＮＴＥＣＨＮＯＬＯＧＹ−ＭＵＬＴＩＭＥＤＩＡＣＯＮＴＥＮＴＩＮＴＥＲＦＡＣＥ−ＰＡＲＴ４：ＡＵＤＩＯ））、ここに引例として組み込まれている。ＭＰＥＧ−７に関する文献では、用語記述子を用いて、本発明によるＭＳ２６が実行する等により、メディアサンプルから直接抽出された特徴を表す。ＭＰＥＧ−７の文献では、用語記述スキームＤＳまたは記述ツールを用いて、特徴から抽出された記述子を記述する。記述子がメディアサンプルのデジタルバージョンの下位の分析である場合は、記述スキームは高位の分析である（例えば、サンプルから直接抽出したものではなく、記述子間の相互関係から抽出したもの）。ＭＰＥＧ−７は現在改良が加えられているので、以下は、その標準に対するもので、本発明に該当すると現在考えられている、特定の記述子および記述スキームの概要である。

記述子は、下位の特徴の表現であり、音声映像コンテンツの基本的な品質であって、信号振幅の統計的モデル、信号の基本的な周波数、信号に存在するソース数の推定値、スペクトル傾き、情緒的コンテンツ、明確な音声効果モデル、任意の数の具体的または抽象的特徴等である。本発明の好適な実施の形態では、ＭＳ２６が記述子を抽出する。

記述スキームは、記述子の組み合わせから構成されている。この構造を用いて、ドキュメントに釈をつけたり、ドキュメントの構造を直接表したり、より豊かな表現であるより高位の概念を形成する特徴の組み合わせを生成したりすることもできる。例えば、クラシック音楽ＤＳは、ソナタ形式の音楽的構造を符号化する（例外もありうる）。各種のスペクトル記述子および時間記述子を組み合わせることにより、音色または短い音声効果を記述するのに適したＤＳを形成することもできる。本発明の好適な実施の形態では、ネットワーク３２上のサーバが記述スキームを抽出する。

記述子が、メディアサンプルの内容の１つの特定の特徴的な表現の構文およびセマンティックスを定義すると考えることもできる。例えば、画像ファイルの色が特性である。特徴を記述子または特性とすることもできる。記述子がこの２つのより基本的なもので、特定の特性をいくつかの記述子によってのみ完全に記述することもできる。特性'色'に対応づけられた、考えられる記述子には、色ヒストグラム、赤緑青（ＲＧＢ）ベクトルまたは列が含まれる。ＭＳ２６は、特定の記述子の値、任意の値セットの記述子のインスタンシエイションを抽出することもできる。例えば、ＲＧＢ＝（２５５、２５５、２５５）、色列＝"赤"である。ある記述子は、１種類のメディアファイルに対しては妥当または有効であるが、別のものには有効ではない。例えば、映像メディアサンプルの記述子には、基本構造特性内のグリッドレイアウトおよびヒストグラム、色空間、色特性内の中心的な色、色ヒストグラムおよび色量子化、テクスチャ特性内の空間画像密度分布および均一テクスチャ、形状特性内のオブジェクトバウンディングボックス、領域ベースの形状、等高線ベースの形状および３Ｄ形状記述子、およびモーション特性内のカメラモーション、オブジェクトモーション軌跡、パラメータオブジェクトモーション、モーションアクティビティ、およびモーション軌跡側面（例えば、速度、方向、加速度）を含むこともできる。音声サンプルに該当する記述子には、音声注釈特性内のことばおよび音素プラスメタデータの格子、音色特徴内の偶数対数の高調波の比率および高調波動作開始コヒーレンス、およびメロディ特性内のメロディ等高線およびリズムを含むこともできる。

現在、音声サンプルを記述するために、ＭＰＥＧ−７では１７の時間的および空間記述子がある。基本、基本スペクトル、信号パラメータ、音色時間的、音色スペクトル、およびスペクトル基準である。なお、音声サンプルの内容を特定する際に、無音記述子が有益であることが証明されている。２つの基本音声記述子は、汎用の時間的にサンプリングしたスカラ値で、全種類の音声サンプルに適用可能である。波形記述子は、一般的に表示を行うために、音声波形包絡線（最小および最大）を記述する。電力記述子は、電力スペクトルとともに、時間的に平滑化した瞬時電力を記述する。これは、信号またはサンプル簡単な概要である。

４つの基本スペクトル音声記述子はすべて、共通基準を共有する、音声信号またはサンプルの１つの時間周波数分析から導出されてものである。これらはすべて、第１の記述子である音声スペクトル包絡線記述子で通知され、これは、２の累乗の除数またはオクターブの倍数で間隔を置いた、対数周波数スペクトルである。この音声スペクトル包絡線は、音声サンプルの短期電力スペクトルを記述するベクトルである。これを用いてスペクトル写真を表示したり、未加工の"聴覚化"データを合成したり、または汎用記述子として検索および比較に用いたりすることもできる。他のスペクトル音声記述子は、対数周波数電力スペクトルの重心（重心または形状）、重心周囲に広がるスペクトル、および多数の周波数帯域または周波数ビンそれぞれのスペクトル平坦性を表す。

２つの信号パラメータ記述子を主に、周期的または準周期的信号に適用する。これらは、音声サンプルの（基本的な周波数信頼度）およびその高調波性を記述する（例えば、音楽的トーンまたは声の音声、金属またはベル様の音声、"ｆ"のような摩擦音または楽器がいくつも重なった音声を区別するため）。

２つの音色時間記述子は音声セグメントの時間的特性を記述するもので、特に音楽的音色の記述に有益である。特性音質は、ピッチおよび音の大きさとは無関係である。このような記述子のあるものは、音声の"動作開始"（無音から最大振幅へ立ち上がる信号が発生するとき）と特徴付け、別のものは信号包絡線または重心を特徴付けるもので、やがては信号エネルギーに注目する場合を表している。後者の記述子は例えば、２つの音色の長さと動作開始とが全く同じである場合に、弱くなっていくピアノの音色と持続するオルガンの音色とを区別することもできる。

５つの音色スペクトル記述子は一次周波数空間におけるスペクトル特徴で、特に音楽的音色の知覚に応用可能である。１つは一次電力スペクトルビンの周波数の電力の重み付き平均で、上記重心記述子と同様のものであるが、異なる音楽楽器の音声の"鋭さ"を識別する。残りの音色スペクトル記述子は、信号またはサンプルの等間隔の高調波成分について作用する。この理由から、記述子を一次周波数空間内で算出する。これは、スペクトル中心、スペクトル変移、およびスペクトル拡散記述子を含む。

２つのスペクトル基準記述子は高次元スペクトル空間の低次元投影を表し、コンパクト化して認識を促進する。このような記述子の１つは、正規化電力スペクトルの特異値から導出される、（潜在的に時間可変および／または統計的に独立した）一連の基準関数である。別のものは（前者と組み合わされた場合に）、等級基準を低くした際に投影を行った後の、スペクトルの低次元特徴を表す。無音セグメントは単に、"無音"の単純な意味（すなわち、重要でない音声）を音声セグメントに添付する。これは非常に単純であるが、とても効果的な記述子である。これを用いることにより、音声ストリームをさらにセグメント化するようにしたり、セグメントを処理しないようにするヒントとして用いたりすることもできる。

合わせて、記述子を用いることにより、スペクトル写真の独立部分空間をコンパクトに表示して表すこともできる。往々にして、これら独立部分空間（またはそれらの群）は、異なる音源と強い相関性がある。従って、空間をあまり使用せずに、スペクトル写真のより突出した点と構造とが得られる。

記述スキームＤＳは、記述子の間、またはいくつかの周波数ビンまたはスペクトルスライスに対する同じ種類の記述子の間での相互関係を反映している。このように、ＤＳは、記述的重厚感に対するある程度の普遍性を交換する。一旦、十分な数の記述子をＭＳ２６でサンプルまたはそのサンプルのセグメントから抽出したならば、デジタル化音声サンプルを送信する必要はない。認識サービス３４は、さらに特徴を抽出するための抽出した特徴だけを必要とする。本発明のある実施の形態では、これらのさらに抽出した特徴は、ＭＰＥＧ７のＤＳに類似したものである。例えば、音声署名ＤＳは、統計的にスペクトル平坦性記述子を集約する。これにより、音声サンプルを正しく自動的に特定するために、一意のコンテンツ識別子を供給することができる。

音色ＤＳは、楽器音声の知覚の記述に向けられたものである。特徴音色は、ピッチと音の大きさとが同じ２つの音声を異なる音声にする知覚特徴である。音色ＤＳは、これら知覚特徴を、数を減らした記述子セットで記述する。これは、以下の概念と関連させてもよい。音声の"動作開始"、"明るさ"または"重厚感"、特定の楽器または楽器群（パーカッション）の高調波、コヒーレント、持続する音声、持続しない音声などである。別の音色ＤＳは、距離基準値を用いて音色時間記述子をスペクトル中心記述子と比較する。

メロディＤＳは、モノラルメロディ情報の豊かな表現を含んでおり、効率的で、正しく動く、表現豊かなメロディ類似性の照合を促進して、非常に簡潔で、効率的なメロディ等高線表現を行うためのメロディ等高線ＤＳ（５段階の等高線間隔が大小、高低、または同じ間隔で量子化されている、隣接する音色の間の間隔差を表すもの）と、より詳細で、完全な、表現豊かなメロディ表現を行うためのメロディシーケンスＤＳ（拡張記述子セットおよびより正確なピッチ間隔符号化）とを含んでいる。これらの一方または両方を拡張して、メロディに関するサポート情報を含むようにしてもよい。これら中心記述子を配列して、歌詞、キー、メータ、開始音等の一連のオプションのサポート記述子を構成して、応用例で所望のように用いることができる。

"認識"ＤＳのあるものは、特に基礎となるメディアファイルの検索および索引付けを促進して、隠れマルコフまたはガウス混合モデル等の統計的モデルを形成する基礎として下位のスペクトル基準記述子を用いるものである。得られる確率論的分級器は、音声および音楽等の音声クラスを幅広く認識したり、男性、女性、トランペット、またはバイオリン等のより狭いカテゴリを特定するように教えたりすることができる。他の応用としては、ジャンル分類および音声認識が含まれる。さらにＤＳは、音声ストリーム内の話し言葉のコンテンツを詳述する。

さらに、抽出された特徴に関する詳細については、２００２年６月２７日公開の、米国特許出願第２００２／００８３０６０に記載されており、これはここに引例として組み込まれている。ＭＳ２６での前処理２０２の量については、特徴ベクトルを全く抽出しないものからすべて抽出するものまでの範囲に設定できる。各特徴を完全に抽出する特徴抽出処理を好ましくは、いくつかの段階に分割する。これらのあるものは、抽出されない信号（例えば、ＭＳ２６で受信した'生の'音楽サンプル２４）と比較するために送信するデータ量を低減することになる。例えば、自己相関ベクトルを瞬時に算出して、時間で平均をとることにより、スペクトル特徴の第１の段階を、デジタル化入力信号２０１の自己相関の推定とすることができる。次に、次の段階では、さらにフーリエ変換および処理を行うことができる。完全特徴抽出処理を、ＭＳ２６とサーバ３４との間で分割する。ＭＳ２６は、実行する段階数を選択して、前処理（ＭＳが抽出した特徴）の結果とともに、Ｍ個の段階を副情報としてパケット化する（２０３）。好ましくは、ＭＳ２６は、抽出する特徴の数および／または種類を適応可能に選択する。この選択は、メディアサンプルの種類（音声、映像、静止画等）および／またはこれらの抽出した特徴を送信するチャネル特性に基づいている。ＭＳ２６が特徴を全く抽出しなかったメディアサンプル２４のセグメントについても、ＭＳ２６が上述のように送信して、認識サービス３４で上述のようにさらに分析してもよい。一般的な無線プロトコル（配座マッピング、誤り訂正、等）に従って、パケットを符号化する（２０４）。アクセスネットワーク３２とＭＳ２６の能力とに基づいて、処理能力と送信帯域幅との間の適したバランスを選択する。符号化したパケットを、１つ以上のチャネルを介してワイヤレスリンク２８を通じて送信する。

図２Ｂに示すように、パケットを受信して、復号化する（２０５）。通信サーバ３０Ｂがワイヤレスリンク２８に特有の復号化を行って、インターネットを介するエンドツーエンド音声プロトコル配列で、楽曲認識サービス３４がパケットをそれぞれ開けてもよい（２０６）。次に、楽曲認識サービス３４のサーバは、楽曲の特定に必要なパラメータをさらに抽出する（２０７）。これは、ＭＳ２６から受信した特徴および／またはやはりＭＳ２６が受信したデジタル化メディアサンプルのセグメントから抽出されるものである。図２Ａ〜図２Ｂの例では、合計でＮ＞Ｍ個の特徴を抽出することにより、メディアサンプルの特定を確実に行うことができる。ＭＳ２６がＭ個の特徴を抽出して、サーバ３４が残りのＮ−Ｍ個の特徴を抽出する。好ましくは、Ｍは下位の特徴を表し、Ｎ−Ｍは、下位の特徴から抽出され、かつメディアサンプルのデジタル化バージョンから抽出されたものでないより高位の特徴を表す。楽曲認識サービスサーバ３４は次に、抽出した特徴と特徴セットとの間で比較を行う（２０８）。それぞれ、楽曲署名データベース３６で記憶した基礎となるメディアファイルを表している。理想的には、データベース内のたった１つの特徴セットが抽出した特徴群と一致し、このように一致した特徴セットが、メディアサンプルを抽出したファイルを表す。抽出した特徴に基づいて、そのＮ個の抽出した特徴を楽曲署名データベース３６が提供した基礎となるファイルの特徴ベクトルまたは特徴セットと比較することにより、メディアサンプル２４を認識する。

図３Ａ〜図３Ｄは、各種のステップ、すなわち本発明による方法の好適な実施の形態を構成するフロー図を示す。フロー図はそれぞれ、図示のように別の図とリンクしている。図３Ａは、メディアサンプル２４をはじめに受信して処理した、ＭＳ２６内での方法を説明している。本実施の形態では、メディアサンプルを２つのセグメントに解析している。一方はＭＳ２６のバッファに記憶されており、もう一方は、ＭＳ２６で受信してリアルタイムで処理されるものである。第１のメディアサンプルセグメントをＭＳ２６で受信して、デジタル化して、バッファに記憶する（３０２）。分析を行ったり、入力を処理したりするようにＭＳ２６に通知するユーザ入力が行われるまで、ここでの教示に従って、連続して記憶する。ユーザが認識キー３０４を押して、ＭＳ２６が３つの機能を行うようにトリガする。好ましくは同時に実行する。ＭＳ２６が基地局３０Ａへワイヤレスリンク２８を接続し（３０６）、バッファしたメディアサンプル２４の第１のセグメントから下位の特徴を抽出し（３０８）、メディアサンプルの第２のセグメントを受信し、デジタル化し、下位の特徴を抽出する（３０１）。第２のセグメントを、一時的に記憶することもできる。ＭＳ２６は次に、ステップ３０６で接続したワイヤレスリンク２８を通じて、抽出した特徴（適用可能な場合は、上述のように、ＭＳ２６が特定の特徴を抽出する際に行ったステップ数）を送信する（３１２）。あるいは、第１のセグメントから特徴を抽出して、可能な場合は第２のセグメントからも特徴を抽出して、抽出した特徴を第２のセグメントとともに送信する。これらは単に、スペクトルスライスまたはデジタル化メディアサンプルの一連のスペクトルスライスである。方法は、図３Ｂへ続く（３１４）。

図３Ｂは、システム２０のネットワーク３２側でのステップを詳述している。サーバ３４は、図３Ａのステップ３１２でＭＳ２６から送信したメッセージを受信する（３１６）。通信サーバ３０Ｂは、パケット化メッセージの無線特有部分を復号化して、好ましくは、ネットワーク３２を通じて、実体データを有する未開封パケットを単に再送信してもよい。楽曲認識サービス３４は、パケットを開封して、すでに抽出されている下位の特徴を受信して、署名データベース３６を検索して、ＭＳ２６から受信した下位のものと一致する、一意の対応３２０となる特徴セットを有するファイルを探す（３１８）。その検索結果を一時的に記憶する。ＭＳが抽出した特徴だけを用いることで一意の対応を探し出せない場合は、インデックスＫ（ブロック３１６で開始する）を最大のものと比較する。これを超えない場合は、１つ以上のより上位の特徴を、ブロック３２６で受信した下位の特徴から抽出する。ブロック３２８では、サーバが抽出したＫ番目の特徴を用いて、ＭＳが抽出した特徴（かつブロック３１８で一時的に記憶したもの）と一致したデータベースからのこれらの特徴セットを検索するので、現在の検索の繰り返しにおいて、全データベース３６を再び検索する必要はない。Ｋ番目の検索結果を、ブロック３２２で一時的に記憶する。Ｋは、ブロック３３０で索引付けされたものである。一意の対応をやはり発見できない場合は（３２０）、Ｋが最大を超えるまで、抽出した特徴を検索するループを継続して、"対応なし"メッセージをＭＳに送信する（３３４）。ブロック３２０で一意の対応を発見した場合は、抽出した特徴に一致するデータベース特徴セットと一意に対応する楽曲またはファイルの曲名（または他のＩＤ）を有するという応答メッセージ３３６を、ＭＳ２６に送信する。好ましくは、応答メッセージ３３６は、一致したファイルに向けられたリンクも有している。これは楽曲またはファイル記憶データベース４０へのリンクで、このデータベースは署名データベース３６を有していてもよいし、いなくてもよい。

好ましくは、ＭＳ２６がまずその抽出した特徴を送信して、認識サービス３４が一意のファイル識別子を有するその応答メッセージ３３６を送信するまでは、ＭＳ２６と楽曲認識サービス３４との間の通信リンクをオープンにしておく。一実施の形態では、ＭＳ２６が第１のセットの抽出した特徴を有する第１のメッセージを送信して、認識サービス３４がそのデータベースを検索する（特徴をさらに抽出してもよいし、しなくてもよい）。一意の対応を発見できない場合は、認識サービス３４は、さらに抽出する特徴の数と種類とを指定する要求メッセージをＭＳ２６に送信して、ＭＳ２６に抽出を要求してもよい（ＭＳ２６は、バッファに記憶したデジタルバージョンのメディアサンプルから抽出してもよい）。例えば、認識サービス３４がデータベースから４つの一致結果を返送したと仮定する。認識サービスは次に、４つの結果を一意に区別する、１つ以上の特定の特徴を求めることができる。信号包絡線または重心等の下位の特徴、または音色時間的重心の間の音色時間的距離等の、より高位の特徴とすることもできる。前者では、認識サービス３４は特に、４つの結果を直接区別する特定のスペクトルスライスの重心特徴を要求してもよいし、後者では、認識サービスが次に、４つの結果を区別する特徴（例えば、重心間の距離）をさらに抽出できるように、欠落している音色時間的重心を要求してもよい。ＭＳ２６は、その第２の抽出で抽出された第２のセットの特徴を有する別のメッセージを送信して、認識サービス３４がデータベースを再び検索する。データベースに対してこの第２の検索を行う際に、第２のセットの抽出した特徴、第２のセットから抽出された第２のセットのさらに抽出した特徴、またはこの組み合わせを用いることもできる。このように、データベース検索で一意の対応を返送できない時は必ず、認識サービスが特徴をさらに抽出することを呼び出して、ＭＳ２６と認識サービス３４との間で'対話'を継続することもできる。好ましくは、これらの間の通信リンクをオープンのままにしておく。パケットが送信されていないので、認識サービスがデータベースを検索する間に、パケット切換ネットワークが測定可能な帯域幅を消費する必要がない。

好ましくは、楽曲またはファイルＩＤおよび対応する音楽サービスＵＲＩを通信サービス３０Ａ−Ｂに返送する。これが、ＭＳ２６への応答メッセージを作成して、ＳＭＳ／ＭＭＳまたは同様のメッセージとしてＭＳ２６に送信する。認識サービスサーバ３４はまた、ＭＳ２６の一意の識別子と一致したファイルへのリンクとを有するメッセージ３３８を音楽サーバ３８に送信する（音楽サーバは認識サービスサーバと独立している）。

ブロック３４２は、図３Ｃの音楽サーバ３８に向かう。音楽サーバ３８は、図３Ｂのブロック３３８からのメッセージを受信して（３４４）、ＭＳ２６は一致したファイルまたは楽曲のダウンロードを直ちに要求しなくてもよいので、ダウンロードマネージャ３４６でその情報を記憶する（３４６）。一旦、音楽サーバ３８がＭＳ２６から要求を受信すると（図３Ｄを参照）、好ましくは、ＭＳ２６がその応答メッセージ３３６を認識サービスサーバ３４から受信してまもなく、ＭＳ２６の一意の識別子をダウンロードマネージャ３４６に記憶したＭＳのＩＤと照合して、一致したファイルに対応付けられたリンクを取り出す（３５０）。支払い情報（好ましくはそのＭＳ２６からの第１の購入に続いて、ファイルに保持され、ＭＳのＩＤに対応しているもの）を確認して、一致したファイルまたは楽曲をＭＳ２６にダウンロードする（３５２）。購入の送り状をＭＳ２６の通信サーバ３０Ｂに提出して（３５４）、方法のネットワーク側で処理を終了する（３５６）。

図３Ｂのブロック３４０は、さらにＭＳ２６から見た図３Ｄに向かう。ＭＳ２６は（図３Ｂの）ブロック３３６から応答メッセージとリンクとを受信して（３５８）、リンクとともに楽曲またはファイル曲名または他の識別子を表示する（３６０）。ユーザはダウンロードキーを押して（３６２）、場合によっては、同時に表示されうるユーザが記憶したいくつかのリンクを選択した後で、図３Ｃのブロック３４８で説明したファイルまたは楽曲に対する要求を送信して（３６４）、以前に公開したアカウントの貸方借方に対する認可についても構成している。ユーザはＭＳ２６でダウンロードしたファイルまたは楽曲を受信して（３６６）、トランザクションのＭＳ２６側で方法を終了する（３６８）。

図４Ａおよび図４Ｂを参照して、ＭＳ２６に特有の構成要素について説明する。アナログ音声入力（前述のメディアサンプル２４）を受信する第１のトランスデューサすなわちマイク４８は、プロセッサ５０に接続している。マイク４８は、アナログメディアサンプル２４をデジタルバージョンに変換して、プロセッサ５０が特徴抽出を開始して、コンピュータ読み取り可能主記憶装置５４に記憶する。特徴抽出に用いる特定のアルゴリズムを、コンピュータ読み取り可能命令として記憶装置５４に記憶することもできる。主記憶装置５４は１つのコヒーレント記憶媒体である必要はなく、いくつかの異なる記憶構成要素に分散してもよい。メディアサンプルをバッファ記憶装置５２に送って、処理を行う前にサンプルの有限のデータ量を連続して記憶させてもよい。バッファ記憶装置５２が直近にマイク４８で受信した信号を連続して記憶するので、メディアサンプルがユーザコマンドで抽出された特徴を有する場合は、プロセッサ５０は直ちに、バッファメモリ５２内に現在あるメディアサンプルのその部分から特徴抽出を開始することができる。このように、楽曲またはファイルを特定するユーザ入力コマンドの直前に、またはリンクに接続した際に、ＭＳに入力したサンプルの一部分またはセグメントから、特徴を抽出することもできる。ユーザコマンドが要求するまで、あるいは要求しない限り、バッファメモリに記憶した信号をさらに処理することがないので、さらに消費する電力は最小限である。

プロセッサ５０およびＭＳ２６の全構成要素には、充電可能バッテリ５６または交換可能燃料電池等の携帯型電源から電源を供給する。ユーザインターフェース５８は、プロセッサからの出力をユーザが認識することができるテキストメッセージおよび画像に変換するディスプレイインターフェース５８Ａと、ユーザ入力機構５８Ｂ（複数のボタン、表示画面５８Ａ内のタッチセンサまたは圧力センサ、または主記憶装置５４に記憶した音声認識ソフトウェアを有するマイク４８等）を含み、これにより、ユーザがプロセッサ５０へのコマンド／要求を入力することができる。同時に送受信を行えないように、プロセッサ５０は、スイッチ６４を介して送信機６０および受信機６２に接続している。送信機６０および受信機６２をそれぞれアンテナ６６に接続する。これは、プロセッサ５０を覆うハウジング内部でも外部にあってもよい。プロセッサはまた、第２のトランスデューサすなわちスピーカ６８でユーザに対して出力することもできる。映像受信を行うために、ＭＳ２６は、映像メディアサンプルをプロセッサ５０に供給するカメラ７０または他の画像取込装置を含むこともできる。図示しないが、カメラ７０は、マイク４８に対応づけられたバッファメモリ５２に対して同様の動作を行う映像バッファメモリ（図示せず）に入力を供給することもできる。

本発明によるＭＳ２６のユーザインターフェースの特定の側面について、図４Ｂで詳述する。特に、ディスプレイインターフェース５８Ａは、ユーザが認識可能な出力を供給する。これは、信号強度、リンクの種類、および／またはバッテリ電圧を示す状態アイコン７４を含んでもよい。表示画面５８Ａはさらに、ユーザが選択でき、強調表示、シェーディング、背景の変更等で示されるテキスト７６および符号７８を表示する。ユーザ入力機構５８Ｂは、１つ以上のいくつかの異なる形態をとることもできる。英数キーパッド８０の１つ、ナビゲーションボタン８２、ソフトキー８４、または好ましくは専用ボタン８６のキー等で、知らないメディアサンプルおよび関連操作を特定するために確保しておく。代替のユーザ入力機構５８Ｂについて、以下に詳述する。英数キーパッド８０は当該技術で周知のもので、テキストおよび番号をＭＳ２６に入力するために主として用いられる。ナビゲーションボタン８２は、表示画面５８Ａ上の異なる点にカーソルまたは他のインジケータを移動させる。ソフトキー８４は多機能で、該当するソフトキー８４に直接隣接する表示画面５８Ａ上に通常表示されるコマンドを実行する。

図４Ｂの説明に従って、図示のＭＳ２６がメディアサンプルのデジタルコピーを添付ファイルとして含むＥメールを受信したと仮定する。このような場合は、メディアサンプルを受信する手段は、モバイル電話受信機６２を含む。メディアサンプルを受信する他の手段は、マイク４８またはカメラ７０、メディアサンプルをアップロードするＰＣ、サーバ、または同様の装置にＭＳ２６がリンクするデータケーブルコンセント、または光学リンク（例えば、赤外線）の受信機、ローカルエリアネットワーク、またはメディアサンプルをワイヤレスでダウンロードするパーソナルエリアネットワーク（例えば、ブルートゥース（Ｂｌｕｅｔｏｏｔｈ（登録商標）））を含む。図示のＥメール要求識別のテキスト７６とは関係なく、ディスプレイインターフェース５８Ａ上にメディアファイル添付ファイルが、符号７８として表示されている。選択した符号７８のシェーディングで表示画面５８Ａ上に示すなどにより、一旦ユーザがメディアファイルを選択すると、該当するユーザ入力機構でさらに入力に入力を行うことにより、プロセッサ５０にメディアサンプルからの特徴抽出を開始させる（この例では、受信したメディアサンプルは、特徴を抽出するデジタルバージョンである）。

図４Ｂは、ユーザがプロセッサ５０にメディアサンプルから特徴を抽出させることができる、３つの異なるユーザ入力機構を示している。専用ボタン８６を該当するユーザ入力機構として用いる場合は、その専用ボタン８６を押すことにより、プロセッサ５０に特徴抽出を開始させる。あるいは、ユーザが符号７８を選択するとソフトキー８４がこれを行うようにしてもよい（機能指示子８６を該当するソフトキー８４に隣接する表示画面５８上に表示してもよい）。ユーザがナビゲーションボタン８２の周辺部分で入力を行って符号７８を選択した後で、ナビゲーションボタン８２の中央部分を押した場合に、ナビゲーションボタン８２によりプロセッサに特徴を抽出させてもよい。ソフトキー８４はメディアサンプルの特定およびメディアファイルの購入以上の機能を行える点で、ソフトキー８４は専用ボタン８６と異なっている。図示していないが、表示画面５８Ａのタッチセンサ部分がユーザ入力機構として機能してもよい。特許請求の範囲で用いられるボタンとして、上記の任意のものが考えられる。マイク４８とともに音声認識コンピュータプログラム命令が、プロセッサ５０に音声コマンドがあると（例えば"認識"）、メディアサンプルから特徴を抽出させる、適切なユーザ入力機構として機能してもよい。好ましくは、特定するメディアファイルに対応する符号７８を選択させてもよい。

上述のように、バッファ記憶装置５２をＭＳ２６内で用いることもできる。ある実施の形態では、プロセッサ５０に特徴を抽出させる同じユーザ入力が、さらにバッファ５２にストリングを開始させて、マイク４８またはカメラ７０を通じてメディアサンプルを受信する。入力機構をトランスデューサまたは光電子手段とすることのできる実施の形態では（例えば、データケーブル、ワイヤレス電子または光学リンク）、表示画面上で対応する符号７８（または記憶したメディアサンプルの他の表現）を選択した場合に、入力機構がプロセッサに、主記憶装置または記憶媒体５４に記憶したメディアサンプルから特徴を抽出させたり、符号７８が全く選択されない場合には、トランスデューサでの入力から特徴を抽出させたりしてもよい。これにより、ユーザが複数の入力を行って、プロセッサに対して適切なメディアサンプルを指示する必要が回避される。

好ましくは、ＭＳ２６はまた、プロセッサに特徴を抽出させる同じユーザ入力に応答して、ワイヤレス電話リンク２８を通じて抽出した特徴を有するメッセージを送信する。ネットワーク３２と、サーバ３０Ｂ、３４、３８、４２と、データベース３６、４０とを有する上述のシステム全体の場合では、抽出した特徴を有するメッセージを、認識サービスサーバ３４のネットワークアドレス（例えば、ウェブページ）に送信する。（例えば、メディアサンプルと一致するメディアファイルを特定する）サーバ３４からのメディアサンプルを特定する応答メッセージの受信に応答して、表示画面５８Ａは自動的にメディアサンプルの識別子を表示する。この識別子を好ましくは、応答メッセージから直接抽出する。この識別子を、曲名、アーティスト／曲名の組み合わせ、トラック番号およびＣＤ曲名の組み合わせ、アルバムリリース日、ジャンル、アーティスト記述等のテキスト識別子とすることもできる。類似のテキスト識別子を、音楽または可聴関連メディアファイルと一致しない他の特定したメディアサンプル（画像サンプル等）として表示することもできる。識別子を、アルバムの表紙、アーティストの画像、メディアファイルから抽出した呼び出し音にリンクするアイコン等の画像としてもよいし、さらに加えてもよい。デジタルメディアサンプルは、特徴およびサーバを介した１つのメディアファイルに一意に一致するものであることが好ましいが、必ずしも識別子がメディアサンプルを一意に特定する必要はない。例えば、サーバが、デジタルメディアサンプルから抽出された特徴とそれぞれ一致する、３つのメディアファイルを返送した場合には、場合によっては、識別子それぞれに添付されたメディアファイルのサンプルクリップを有する、３つのメディアファイルの識別子をすべて、ＭＳ２６に送信してもよいので、ユーザがクリップを聴いて、ダウンロードを希望するメディアファイルを選択してもよい。あるいは、サーバは、デジタルメディアサンプルと一致する１つのメディアファイルではなく、アルバムの全トラックを購入できるようにリンクしているアルバムの表紙のアイコンを返送してもよい。

一旦、識別子を表示画面５８Ａ上に表示すると、ユーザ入力機構８２、８４、８６、４８（後者は音声認識用）での別のユーザ入力により、送信機に、メディアサンプルの基礎となるメディアファイルのコピーの購入を許可するメッセージを送信させる。応答メッセージで特定したもので、上述のように、ファイル記憶データベース４０に記憶したものであってもよい。応答メッセージの送信者は、ワイヤレス電子購入トランザクションを容易にする、メディアファイルを購入するリンク、購入契約および条件、価格、および他の情報を入れることも期待されている。ユーザが以前に交わしたこのようなトランザクションのより一般的な側面について合意したならば、送信者はその情報を一部だけを送信することもできる。この認可メッセージを送信するユーザ入力機構は、専用ボタン８６またはソフトキー８４であってもよい。応答メッセージの受信および／または識別子を表示する際に、該当するボタン８６、８４の機能が自動的に切り替わる。このように、該当するボタン８６、８４により、少なくとも２つの機能を起動する。特徴抽出（好ましくは特徴の送信）と、特定したメディアファイルのコピーの購入認可の送信とである。専用ボタン８６を用いる場合には、好ましくはその機能を、メディアサンプルの特定（例えば、特徴抽出および送信）と、メディアファイルの購入とに限って確保しておく。サンプルを特定するソフトキー８４またはナビゲーションボタン８２の現在の機能を設定するために、ユーザが複数の入力を行う必要がないという点で、専用ボタンが好ましい。これは、リアルタイムで聴いた任意の未確認のメディアサンプル（例えば、マイクを介した放送無線入力を通じて聴いた楽曲）が、その性質上消失しやすいものであるからである。このような専用ボタン８６はさらに、ボタン自体の上、またはその限定された機能を特定する専用ボタン８６にすぐ隣接する位置にあるＭＳ２６のハウジング上に、常設のしるし９０を備えていてもよい。

好ましくは、認可メッセージは、メディアファイルの識別子（単に、応答メッセージで受信する署名データベース３６または記憶データベース４０内のアドレスとすることもできる）と、クレジットまたはデビットカードの基礎となる財務口座の貸方借方の認可とを含む。購入トランザクションを有効にするのに必要な口座の明細（例えば、クレジットカード番号、有効期限、課金アドレス等）は、認可メッセージ内に含めてもよいし、サーバ４２に記憶してもよいし、認可メッセージに含まれるセキュリティコードを用いて呼び出すこともできる。好ましくは、応答メッセージを受信した直後に認可メッセージ（その発信ユーザ入力）開始する必要はないが、認可メッセージにより、特定したメディアファイルをＭＳ２６にすぐにダウンロードすることを許可する。ユーザが記憶したＥメール等を主記憶装置５２に記憶させて応答メッセージおよびテキスト識別子を記憶させたり、メディアファイルを購入してから呼び出したりしてもよい。

図５は、ＭＳ２６で入力をバッファすることにより得られる利点を示すタイムチャートである。スタート５０２で開始するＭＳ２６で、メディアサンプル５０１を受信する。ユーザは、スタート５０２から聴取を開始して、コピーを希望する楽曲またはファイルであると確定してから、ユーザは、例えば、要求時間５０４で専用認識ボタン８６を押す。ＭＳ２６がその前処理を行うのに、最小（時間限定）メディアサンプルΔＴ必要であると仮定する。これは処理時間ではなく、楽曲全体またはファイルを特定するのに十分な特徴を抽出するために必要な楽曲（例えば、１０秒間）の量である。バッファ５２を用いる場合には、ΔＴはユーザ要求時間５０４に先行する時間５０６から開始し、必要な最小サンプル時間は、バッファしたサンプル終了時間５０８までである。バッファを全く行わない場合は、メディアサンプルを取り込める最も早い時間は、要求時間５０４である。次に、必要な最小サンプル時間は、バッファしたサンプル終了時間５０８よりも遅い、時間の５１０で終了する。時間量によるが、ＭＳ２６は、メディアサンプル２４のバッファしたセグメントを処理するのに時間がかかるので、２つの終了時間５０８、５１０の間の差５１２は、メディアサンプル開始時間５０６、５０４の間の差と同じである。ＭＳ２６は好ましくは、前処理した特徴を送信して、応答メッセージを受信する連続ワイヤレスリンク２８を維持しているので、遅延を低減することにより、この差５１２は、ユーザの経験により向上することができる。

以上のことから、本発明は特に、入力メディアサンプルから特徴抽出を行うように適用した、ユーザインターフェースおよび移動局を含む。入力は、アナログでもデジタルでもよい。メディアサンプルを特定する新規の機能は、ＭＳ２６の１つのボタンにおかれ、これは専用ボタン（８６）であってもなくてもよい（８４、８２）。ボタンを押すことにより、ＭＳ２６で特徴抽出と送信とを行い、応答メッセージを受信すると直ちに、（正式には未確認の）メディアサンプルの基礎となるメディアファイルのテキスト識別子を自動的に表示する。さらに、特定したことを示す応答メッセージを受信して、テキスト識別子を表示すると、同じボタンまたは別のボタンを用いることにより、メディアファイルの購入を有効にすることもできる。

請求した発明の好適な実施の形態として現在考えられるものについて示し、説明してきたが、当業者にとって、多数の変更および変形が考えられるであろうことが明らかである。これらの変更および変形のすべては、請求した発明の精神および範囲内にある。

本発明を実施する場合の通信システムの概略全体図である。２Ａ，図２Ｂは、移動局およびサーバそれぞれの間で配信される、メディアサンプルの特徴抽出を示すブロック図である。図１の通信システムで行われる動作の詳細を示す連続フロー図の一部分である。図３Ａは、移動局内でのステップを表し、図３Ｂは、サーバ内でのステップを表し、図３Ｃは、メディアファイルをダウンロードして購入させるためのサーバ内でのステップを表し、図３Ｄはさらに、サーバに応答した移動局内でのステップを表す。本発明の教示により構成した移動局の概略ブロック図である。専用メディアサンプル認識ボタンを含む、本発明によるユーザインターフェースの詳細を示す、移動局の平面図である。移動局で入力を連続バッファする利点を説明する概略のタイムチャートである。

Claims

プロセッサと、
デジタルメディアサンプルの内容のアイデンティティを記述する少なくとも１つの特徴を、該メディアサンプルから前記プロセッサに抽出させるユーザ入力機構とを備える、
移動局。
前記ユーザ入力機構が、異なる時間で異なる機能を開始可能であり、このような機能の１つが、前記プロセッサに前記少なくとも１つの特徴を抽出させる、請求項１に記載の移動局。
前記ユーザ入力機構が、前記プロセッサに前記少なくとも１つの特徴を抽出させるという単一の機能を有する専用ボタンを備える、請求項１に記載の移動局。
前記プロセッサに接続する送信機をさらに備え、前記入力機構による１回のユーザ入力により、該プロセッサに前記少なくとも１つの特徴を抽出させ、該プロセッサにネットワークへのワイヤレスリンクを起動させ、該起動したワイヤレスリンクを通じて該少なくとも１つの特徴を該送信機から送信させる、請求項１に記載の移動局。
前記１回のユーザ入力により、前記デジタルメディアサンプルから抽出された複数の特徴を有するメッセージを前記送信機から送信させ、該メッセージが該デジタルメディアサンプルを再生するのには不十分な情報を運ぶ、請求項４に記載の移動局。
前記リンクが音楽認識サービスのネットワークアドレスへのリンクで、前記移動局の記憶媒体に該ネットワークアドレスが記憶されている、請求項４に記載の移動局。
前記プロセッサを介して互いに接続した受信機とディスプレイインターフェースとをさらに備え、該ディスプレイインターフェースが、前記ネットワークから前記リンクを通じて、前記送信した少なくとも１つの抽出した特徴に応答する応答メッセージを該受信機で受信したことに応答して、前記メディアサンプルの識別子を表示する、請求項４に記載の移動局。
前記識別子がテキスト識別子である、請求項７に記載の移動局。
前記ユーザ入力機構が第１のユーザ入力機構を備え、前記移動局がさらに、ユーザが、前記応答メッセージで参照したメディアファイルのコピーを購入するための前記リンクを通じて、認可メッセージを送信することができる、第２のユーザ入力機構を備える、請求項７に記載の移動局。
前記認可メッセージが、前記応答メッセージの受信に応答して自動的にコンパイルする前記リンクを通じて、前記移動局に前記メディアファイルの前記コピーを直ちにダウンロードさせる認可である、請求項９に記載の移動局。
前記第１のユーザ入力機構および第２のユーザ入力機構が、異なる時間で、第１の機能および第２の機能をそれぞれ有効にする単一の入力機構を備える、請求項９に記載の移動局。
前記単一の入力機構が、前記応答メッセージの受信に続いて、前記第１の機能から前記第２の機能へ切り替えるボタンを備える、請求項１１に記載の移動局。
前記単一のボタンにより、前記第１の機能および第２の機能だけを有効にすることができる、請求項１１に記載の移動局。
記憶媒体と、該記憶媒体に格納したデジタルメディアサンプルを選択することができるディスプレイインターフェースとをさらに備え、前記ユーザ入力機構が、該記憶媒体に格納したデジタルメディアサンプルから少なくとも１つの特徴を前記プロセッサに抽出させるように動作する、請求項１に記載の移動局。
メディアサンプルを受信する前記手段が、前記プロセッサが前記少なくとも１つの特徴を抽出する前記デジタルメディアサンプルから抽出したアナログメディアサンプルを受信するトランスデューサを備える、請求項１に記載の移動局。
前記トランスデューサと前記プロセッサとの間に配置され、前記デジタルメディアサンプルの少なくとも一部分を一時的に記憶するバッファメモリをさらに備え、前記ユーザ入力機構が、該バッファメモリに一時的に格納した少なくとも該一部分から、少なくとも１つの特徴を該プロセッサに抽出させるように動作する、請求項１５に記載の移動局。
前記ユーザ入力機構が、前記バッファに一時的に記憶させ、ユーザ入力が１回行われると前記プロセッサに抽出させるように動作する、請求項１６に記載の移動局。
前記プロセッサが前記少なくとも１つの特徴を抽出する前記デジタルメディアサンプルを受信する手段と、
前記受信したデジタルメディアサンプルに対応する符号を表示するディスプレイインターフェースとをさらに備える、請求項１に記載の移動局。
アナログメディアサンプルを受信して、第２のデジタルメディアサンプルに変換するトランスデューサをさらに備え、前記ユーザ入力機構が、前記移動局のユーザが表示された符号を選択した場合には前記受信したデジタルメディアサンプルから、該ユーザが表示された符号を何も選択しなかった場合には、該第２のデジタルメディアサンプルから少なくとも１つの特徴を前記プロセッサに抽出させるように動作する、請求項１８に記載の移動局。
携帯電子装置のユーザインターフェースであって、
１回のユーザ入力により、前記装置内部のプロセッサにデジタルメディアサンプルから複数の特徴を抽出させると共に、該抽出した複数の特徴を該装置の外部に送信させる、ユーザ入力機構と、
前記送信された、前記抽出された複数の特徴に対する応答メッセージを前記装置が受信したことに自動的に応答して、該抽出した複数の特徴に正確に一致する特徴を有するメディアファイルのテキスト識別子を表示する、表示画面とを備え、
前記抽出した複数の特徴が、前記メディアサンプルの内容のアイデンティティを記述する、携帯電子装置のユーザインターフェース。
前記ユーザ入力機構がさらに、前記応答メッセージの受信に続いて、前記装置の外部に認可メッセージを送信することが可能で、該認可メッセージが、
前記応答メッセージで受信したメディアファイル識別子と、
前記メディアファイルのコピーを前記装置にダウンロードする要求とを含む、請求項２０に記載のユーザインターフェース。
前記抽出した複数の特徴は、前記デジタルメディアサンプルを再生させることができないメッセージで送信される、請求項２０に記載のユーザインターフェース。
メディアサンプルを受信する入力手段と、
前記メディアサンプルの内容のアイデンティティを記述する少なくとも１つの特徴を、該メディアサンプルのデジタルバージョンから抽出する処理手段と、
前記処理手段にそのように抽出させるユーザ入力手段とを備える、
移動局。
前記処理手段が、コンピュータプロセッサを備える、請求項２３に記載の移動局。
送信手段をさらに備え、前記ユーザ入力手段がさらに、前記処理手段による、前記少なくとも１つの特徴の抽出に自動的に続いて、前記少なくとも１つの抽出した特徴を含むメッセージを該送信手段から送信させる、請求項２３に記載の移動局。
移動局内の情報保持媒体に実体的に統合され、デジタルデータプロセッサで実行可能で、メディアサンプルの分析を目的とする動作を行う、機械読み取り可能な命令のプログラムであって、前記動作が、
ユーザ入力に応答して、メディアサンプルのデジタルバージョンから複数の特徴を抽出して、該抽出した特徴を送信機に無線で送信させる動作を含む、プログラム。
前記特徴は抽出され、前記同じユーザ入力に応答して、前記送信機から無線で送信させる、請求項２６に記載の機械読み取り可能な命令のプログラム。