JP2005519336A - 自動オーディオ録音・再生機及びその操作方法 - Google Patents
自動オーディオ録音・再生機及びその操作方法 Download PDFInfo
- Publication number
- JP2005519336A JP2005519336A JP2003573781A JP2003573781A JP2005519336A JP 2005519336 A JP2005519336 A JP 2005519336A JP 2003573781 A JP2003573781 A JP 2003573781A JP 2003573781 A JP2003573781 A JP 2003573781A JP 2005519336 A JP2005519336 A JP 2005519336A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- audio signal
- recording
- signal characteristics
- audio signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011017 operating method Methods 0.000 title description 6
- 230000005236 sound signal Effects 0.000 claims abstract description 158
- 230000015654 memory Effects 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 22
- 230000004044 response Effects 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 22
- 230000003213 activating effect Effects 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 2
- 238000012552 review Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 9
- 239000000284 extract Substances 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 8
- 238000012512 characterization method Methods 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000000872 buffer Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000005294 ferromagnetic effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 239000011435 rock Substances 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 101150058440 Asc-1 gene Proteins 0.000 description 1
- 102100024630 Asc-type amino acid transporter 1 Human genes 0.000 description 1
- 101100110003 Danio rerio pycard gene Proteins 0.000 description 1
- 101100247325 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) RAS2 gene Proteins 0.000 description 1
- 101150081875 Slc7a10 gene Proteins 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03J—TUNING RESONANT CIRCUITS; SELECTING RESONANT CIRCUITS
- H03J1/00—Details of adjusting, driving, indicating, or mechanical control arrangements for resonant circuits in general
- H03J1/0008—Details of adjusting, driving, indicating, or mechanical control arrangements for resonant circuits in general using a central processing unit, e.g. a microprocessor
- H03J1/0058—Details of adjusting, driving, indicating, or mechanical control arrangements for resonant circuits in general using a central processing unit, e.g. a microprocessor provided with channel identification means
- H03J1/0083—Details of adjusting, driving, indicating, or mechanical control arrangements for resonant circuits in general using a central processing unit, e.g. a microprocessor provided with channel identification means using two or more tuners
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03J—TUNING RESONANT CIRCUITS; SELECTING RESONANT CIRCUITS
- H03J2200/00—Indexing scheme relating to tuning resonant circuits and selecting resonant circuits
- H03J2200/20—Radio receiver with possibility to choose a station with a certain program style
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Multimedia (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Circuits Of Receivers In General (AREA)
Abstract
オーディオ録音・再生機が、N個のオーディオ・ソースによって送信されたN個のオーディオ信号を生成するM個のチューナと、上記N個のオーディオ信号からR×N個のオーディオ信号特性を抽出する分析器と、上記R×N個のオーディオ信号特性を記憶するメモリと、上記R×N個のオーディオ信号特性の少なくとも1つの選択に応じて上記N個のオーディオ信号の1つに対応したオーディオ信号を再現する出力回路とを有し、上記Rは正の整数であり、上記M及びNは1より大きい正の整数である。所望であれば、このオーディオ録音・再生機は、有益的なことに、ラジオ、コンピュータ、又は、セットトップ・ボックスのうちの1つに含めることができる。このオーディオ録音・再生機を作動させる方法も記載されている。
Description
本発明は、概して、エンターテイメント・システムに係り、特に、録音、処理、及び録音されたオーディオ信号の選択再生が可能なオーディオ録音・再生機が組み込まれたオーディオ・エンターテイメント・システムに関する。このオーディオ録音・再生機は、有益的なことに、ユーザが以前に録音されたオーディオ信号サンプルに対する処理結果に基づいてライブの又は録音されたオーディオ選択を再生できるようにする。
ライブのオーディオ信号又はオーディオ信号ファイルに対して許容できる精度(すなわち、95%より良い精度)で音声認識を実行するソフトウェアが市場で入手可能である。例えば、特許文献1及び2は、様々な態様の音声認識ソフトウェアをカバーしている。さらに、オーディオ・コンテンツを特徴付ける類似の方法も既知である。特許文献3及び4は、ビート、エネルギ、ピッチなどにより音楽を特徴付ける方法をカバーしている。加えて、ほとんどのカーラジオは、スキャン・モードを有する。スキャン・モードでは、ラジオは、AM若しくはFM周波数帯域を自動的に進み、現存するオーディオ信号ソース(すなわち、チャンネル)の各々で数秒停止する。
近年に行われたストライド(strides)と音声認識及びオーディオ信号分析・特徴付けの双方に関する進行中の開発とにもかかわらず、現在のオーディオ製品のトレンドは、相変わらず、様々な種類のプログラミングを見分ける市場動向に頼っているか、或いは、音楽を様々なチャンネルに並び替える単一のエンティティに頼っている。その後、これらのチャンネルは、衛星経由で又はインターネットを通じて放送される。
米国特許第4,277,644号明細書
米国特許第6,101,467号明細書
米国特許第6,054,646号明細書
米国特許第6,173,260号明細書
近年、未知の「オーディオ・プログラマ」が複数のチャンネルとなる音楽を選択する「高性能ラジオ」がいくつか導入されている(それらのほとんどはその後市場から撤収されている)。例えば、コンテンツ別にソートされた複数のオーディオ・チャンネルがSpinnerなどのサービス又はプロバイダからインターネットを通じて入手可能である。近年導入されたXMラジオ(XM Radio)は、専門的にプログラムされた音楽、スポーツ、ニュースなどのチャンネルを100以上提供する。しかし、衛星放送を受信するのに用いられるこのラジオは、10年前に売り出されたカーラジオと同程度の機能性である。代替的なKerbangoラジオ(及びチューニング・サービス)は、インターネットを経由して利用可能なオーディオ・ソースのデータベースを提供することによっていくつかの進歩した機能性を提供した。すなわち、コンテンツは、ユーザの好みではなく、企業側の基準で分類されている。対照的に、AudioRamp.comより売り出されているインターネット・ラジオ機器は、約1000のMP3オーディオ・ファイルを格納している。しかし、ユーザはそれらファイルをオンライン・ストリーミング・ソースから取得するため、ここでもオーディオ・ファイルはユーザではなくストリーミング・ソースにより選択される。
必要とされているものは、ユーザにより再生されるオーディオ・ソースがユーザの好みに応じて選択されるように、複数のオーディオ・ソースからのオーディオ信号を分析し特徴付けすることが可能なオーディオ録音・再生機である。このオーディオ録音・再生機が例えば自動車用エンターテイメント・システム、パーソナル・コンピュータ、セットトップ・ボックスなどの多くの機器内に組み込まれれば有益的であろう。このオーディオ録音・再生機は音声又は音楽のいずれかを含むオーディオ信号サンプルを処理できることが望ましい。また、このオーディオ録音・再生機は、ハイレベル音声コマンドに応答できることも望ましい。最後に、任意の要素が実物でも仮想(すなわち、プロセッサにより具体化されたソフトウェア機能)でもよいオーディオ録音・再生機が特に有益的である。
以上より、現在、本技術分野では、上述の困難を克服するオーディオ録音・再生機及び対応する操作方法に対する必要性が存在することは明らかであろう。本発明は、現在利用可能な技術の欠点及び短所を克服して上記必要性を満たしたいという願望が動機となっている。
一態様によれば、本発明は、オーディオ録音・再生機であって、少なくとも2つのオーディオ・ソースに周波数を合わせることによって第一及び第二のオーディオ信号を生成する第一の装置と、上記第一及び第二のオーディオ信号に対応した第一及び第二のオーディオ信号特性を生成する第二の装置と、上記第一及び第二のオーディオ信号及び上記第一及び第二のオーディオ信号特性の双方を記憶する第三の装置と、上記第一及び第二のオーディオ信号特性の一方の選択に応じて上記第一及び第二のオーディオ信号の一方を再現する第四の装置とを有するオーディオ録音・再生機を提供する。所望であれば、このオーディオ録音・再生機は、有益的なことに、ラジオ、コンピュータ、又は、セットトップ・ボックスの中に含めることができる。有利なことに、上記記憶装置はハードディスクを含むことができる。一実施形態において、上記チューニング装置はプロセッサによって具体化される音声認識ルーチンを有する。さらに、上記生成装置は、プロセッサによって具体化される音声認識ルーチンを有することができる。所望であれば、本オーディオ録音・再生機は、発話コマンドに応じて生成された制御信号を適用して上記再現装置を制御する装置を更に有する。
別の態様によれば、本発明は、オーディオ録音・再生機であって、N個のオーディオ・ソースによって送信されたN個のオーディオ信号を生成するM個のチューナと、上記N個のオーディオ信号からR×N個のオーディオ信号特性を抽出する分析器と、上記R×N個のオーディオ信号特性を記憶するメモリと、上記R×N個のオーディオ信号特性の少なくとも1つの選択に応じて上記N個のオーディオ信号の1つに対応したオーディオ信号を再現する出力回路とを有し、上記Rは正の整数であり、上記M及びNは1より大きい正の整数である、オーディオ録音・再生機を提供する。所望であれば、上記M個のチューナの各々はプロセッサによって具体化されるソフトウェア・ルーチンを含む。加えて、上記分析器は、有益的なことに、プロセッサにより具体化される音声認識ルーチンを含んでもよい。一例として、この音声認識ルーチンは、発話コマンドに応じて上記出力回路を制御する信号を生成するのに用いることができる。
更に別の態様によれば、本発明は、M個のチューナと分析器と記憶装置とオーディオ出力回路とを含むオーディオ録音・再生機の作動方法であって、上記M個のチューナを作動させてN個のオーディオ・ソースからN個のオーディオ信号を取得する工程と、上記分析器を作動させて上記N個のオーディオ信号に特徴を付け、R×N個のオーディオ信号特性を生成する工程と、上記N個のオーディオ信号及び上記R×N個のオーディオ信号特性の双方を上記記憶装置に記憶する工程と、上記R×N個のオーディオ信号特性の1つの選択に応じて、上記N個のオーディオ信号の選択された1つを上記オーディオ出力回路を通じて再現する工程とを有し、上記Rは正の整数であり、上記M及びNは1より大きい正の整数である、方法を提供する。所望であれば、MはNと等しくすることができる。特に、上記チューナの各々がプロセッサにより具体化されるチューナ・ルーチンである場合には。一例として、上記N個のオーディオ信号の1つは、上記M個のチューナの1つが上記N個のオーディオ・ソースの対応した1つに周波数が合わせられている間に記憶され、上記R×N個のオーディオ信号特性は、上記記憶されたN個のオーディオ信号から抽出される。上記R×N個のオーディオ信号特性のうち選択されたものは、上記N個のオーディオ信号に含まれる音楽についての速度、トーン、及びエネルギに対応することが好ましい。あるいは、上記R×N個のオーディオ信号特性のうち選択されたものは、上記N個のオーディオ信号に含まれる発話から抽出された言葉に対応する。いずれにしても、本作動方法は、上記R×N個のオーディオ信号特性の1つをユーザが選択したのに応じて、上記N個のオーディオ信号の上記選択された1つを上記オーディオ出力回路に再現させる制御信号を生成する工程を含むことができる。
更に別の態様によれば、本発明は、M個のチューナと分析器と記憶装置とオーディオ出力回路とを含むオーディオ録音・再生機の作動方法であって、上記M個のチューナを作動させてN個のオーディオ・ソースからN個のオーディオ信号セグメントを取得する工程と、上記分析器を作動させて上記N個のオーディオ信号セグメントに特徴を付け、R×N個のオーディオ信号特性を生成する工程と、上記R×N個のオーディオ信号特性を上記記憶装置に記憶する工程と、上記R×N個のオーディオ信号特性の1つの選択に応じて、上記N個のオーディオ信号の選択された1つによって生成されたオーディオ信号を上記オーディオ出力回路を通じて再現する工程とを有し、上記Rは正の整数であり、上記M及びNは1より大きい正の整数である、方法を提供する。所望であれば、MはNと等しくすることができる。一例として、上記N個のオーディオ信号セグメントの1つは上記M個のチューナの1つが上記N個のオーディオ・ソースの対応した1つに合わせられるたびに一時的に記憶され、上記R×N個のオーディオ信号特性は上記一時的に記憶されたN個のオーディオ信号セグメントから抽出される。上記R×N個のオーディオ信号特性のうち選択されたものは、上記N個のオーディオ信号セグメントに含まれる音楽についての速度、トーン、及びエネルギに対応することが好ましい。あるいは、上記R×N個のオーディオ信号特性のうち選択されたものは、上記N個のオーディオ信号セグメントに含まれる発話から抽出された言葉に対応する。いずれにしても、本作動方法は、上記R×N個のオーディオ信号特性の1つをユーザが選択したのに応じて、上記N個のオーディオ信号の上記選択された1つを上記オーディオ出力回路に再現させる制御信号を生成する工程を含むことができる。
本発明の上記及び他の様々な特徴は、添付図面と共に以下の詳細な説明を参照することによって容易に理解できる。図面中、同じ又は類似の数字が通して用いられる。
図1を参照して本発明の第一の好ましい実施形態について説明する。図1は、オーディオ録音・再生機1のハイレベル・ブロック図である。このオーディオ録音・再生機は、アンテナ10と作動可能に結合されたチューナ20及び22を含むことが好ましい。チューナ20、22の各々は、プロセッサ30により制御される。プロセッサ30は、有益的なことに、入出力(I/O)ポート32を通じて、チューナに制御信号を提供する。
プロセッサ30は、ランダム・アクセス・メモリ(RAM)42、不揮発性ランダム・アクセス・メモリ(NVRAM)44、及び、リード・オンリ・メモリ(ROM)46に作動可能に結合される。RAM42は、プロセッサ30により具体化されたプログラム及びルーチンとにより生成されたデータ用の一時的なストレージを提供し、NVRAMは特徴付けの結果、すなわちオーディオ信号の特性を示すデータを格納する。ROM46は、プログラムと、これらプログラムが使用する永久データとを格納する。ここで、プロセッサ30は、有益的なことに、マイクロプロセッサかディジタル・シグナル・プロセッサ(DSP)のいずれかであってもよい点が言及されるべきである。一例として、プロセッサ30は両種類のプロセッサを含んでもよい。別の一例において、このプロセッサは、後に詳述するように作動する分析器を具体化するDSPである。また、NVRAM44がスタティックRAM(SRAM)や強磁性体RAM(FERAM)などであり、ROM46が新しいプログラムが利用可能となったときにプログラム及び「永久」データを更新できるSRAMや電気的にプログラム可能なROM(EPROM又はEEPROM)であってもよいことも言及されるべきである。あるいは、RAM42、NVRAM44、及びROM46によって提供される機能は、本発明において、単一のハードドライブとして具現化されてもよい。その場合、離散型メモリ42、44、及び46が例えばハードドライブ若しくはディスクなどの単一の記憶装置40内に組み込まれる。
チューナ20、22の各々は、出力回路に作動可能に接続されている。この出力回路は、一例として、選択スイッチ24、ディジタル/アナログ変換器(DAC)50、増幅器60、及び、スピーカ70を含む。出力回路内の様々な装置は、従来通りの方法で、グランド80へ接続される。チューナ20、22がアナログ装置の場合、DAC50は有益なことに省くことができる点に注意。しかし、チューナ20、22の出力は分析及び特徴付けのためにI/Oポート32を通じてプロセッサ30にも提供されるため、チューナ20、22をディジタル装置であるものとして説明する。すなわち、便宜上、チューナはディジタル出力を有するものとする。この開示を読んだ当業者には他の構成も思い浮かぶであろう。そのような構成は本発明の範囲内と考えられる。
図1に例示したオーディオ録音・再生機1の構成は空中又はケーブルなどの地上線を通じて複数のオーディオ・ソースからの伝送を受信する装置を含めるのに適していることに注意。このような装置は、ラジオ(すなわち、カーラジオや衛星ラジオなど)や、セットトップ・ボックス(例えば、ケーブルテレビ用や衛星放送用のSTBなど)などである。オーディオ録音・再生機1がオーディオ・コンテンツを分析し特徴付ける速度はその装置に含まれるチューナの数により制約される。例えば、オーディオ録音・再生機1が図示したチューナ20、22のみを含むとき(より多くのチューナが含まれると有益的であるが)、チューナ20はユーザのお気に入りのラジオ局を再生しており、チューナ22のみがオーディオ・サンプリングに利用可能である点に注意。各サンプルの長さは数秒であること、各放送局のコンテンツの分析及び特徴付けの品質は一般的にその局のサンプル数に反比例すること、及び、チューナがあるオーディオ・ソースから別のオーディオ・ソースに合わせられたとき、受信したオーディオ信号には有限の隙間が存在することにより、特定の聴取者に役立つすべてのオーディオ・ソースを分析し特徴付けるのには何分も時には数時間も掛かる可能性もある。複数の仮想チューナ(例えば、記憶されたチューナ・プログラム又はソフトウェア・ルーチンを読み出したプロセッサにより具体化されたチューナ)を作動させることができる装置が利用可能であれば、有益的である。そのような装置を図2に例示する。
本発明の別の一実施形態を図2に示す。図2は、オーディオ録音・再生機100のハイレベル・ブロック図である。オーディオ録音・再生機100において採用されている構成要素の一部は後に詳述するようにソフトウェア装置であることは明らかである。オーディオ録音・再生機100は、有益的なことに、様々な流れているオーディオ・ソース(ある時点で、米国だけでもそのようなソースは2,500くらい作動中であった)に接続できる。プロセッサ130はこれら流れているオーディオ・ソースをインターネット(I)からI/Oポート132を通じて受信することが好ましい。インターネットに接続するのに必要な実際のハードウェアは、モデム(例えば、アナログモデム、ケーブルモデム、又は、DSLモデム、など)や、場合によってはネットワーク・インターフェース・カード(NIC)などであることに注意。本発明の一部を構成しないこのような従来通りの装置はこれ以上説明しない。
引き続き図2を参照すると、プロセッサ130は、共同でメモリ140を構成するRAM142、NVRAM144、及びROM146に接続されることが好ましい。図1に関して既に述べたように、RAM142はとプロセッサ130により具体化されたプログラム及びルーチンとにより生成されたデータ用の一時的なストレージを提供し、NVRAM144は特徴付けの結果、すなわちオーディオ信号の特性を示すデータを格納する。ROM146は、プログラムと、これらプログラムが使用する永久データとを格納する。ここで、NVRAM144がスタティックRAM(SRAM)や強磁性体RAM(FERAM)などであり、ROM146が新しいプログラム・バージョンが利用可能となったときにプログラム及び「永久」データを更新できるSRAMや電気的にプログラム可能なROM(EPROM又はEEPROM)であってもよいことに言及されるべきである。別の方法として、RAM42、NVRAM44、及びROM46の機能は、本発明において、有益的なことに、単一のハードドライブ(すなわち、単一のメモリ装置140)として具現化することができる。プロセッサ30(130)が複数のプロセッサを含むとき、これら複数のプロセッサの各々は、有益的なことに、メモリ装置140を共有してもよく、或いは、個別のメモリ装置を有してもよいことは明らかである。例えばすべてのDSPがメモリ装置140を用い、すべてのマイクロプロセッサがメモリ装置140A(図示せず)を用いるなどの他の構成も可能である。
図2から明らかなように、プロセッサ130は、プロセッサ・リソースの許す限り、多くの仮想チューナ(例えば、TCP/IPチューナ120a〜120n)を具体化する。TCP/IPチューナ120a〜120nの1つは、I/Oポート132を通じて出力回路に作動可能に接続することができる。出力回路は、一例として、光学ディジタル/アナログ変換器(DAC)150、増幅器160、及び、スピーカ170を含む。出力回路内の様々な装置は、従来通りの方法で、グランド180へ接続される。再記するが、この開示を読んだ当業者には他の構成も思い浮かぶであろう。そのような構成は本発明の範囲内と考えられる。オーディオ録音・再生機がディジタル増幅器160を含み、DACが必要ないとき、DAC150は省くことができる点に注意。
以下、図3を参照して、オーディオ録音・再生機1及び100のオペレーション全体を説明する。図3は、本発明に係るオーディオ録音・再生機を作動させる方法のフローチャートを示している。ステップS10において、オーディオ録音・再生機に電源が入れられ、初期化される。図1及び2に示したオーディオ録音・再生機のいずれについても、初期化ルーチンは、有益的なことに、RAM42(142)を初期化してディジタル・オーディオ信号サンプルを受け入れることができる。さらに、オーディオ録音・再生機1(100)のプロセッサ30(130)は、ROM46(146)からソフトウェアを検索することもNVRAM44(144)に予め記憶されたオーディオ信号特性を読み出すこともできる。
オーディオ録音・再生機1(100)の作動方法の残りのステップについて述べる前に、有益的なことにRAM42、NVRAM44、及びROM46に帰する機能を提供する例えばメモリ40の構成について述べることが有用であるかもしれない。図4Aから、ROM46又はメモリ40の対応する部分は、有益的なことに、プロセッサ30により実行できる又はプロセッサ30上で具体化できるソフトウェア・プログラム及びルーチンを記憶することは明らかである。これらソフトウェア・プログラム及びルーチンは、例えば、分析器ソフトウェア(AN)、TCP/IPチューナ・ソフトウェア(TS)、音声認識ソフトウェア(VR)、一致ソフトウェア(CS)、音声案内ソフトウェア(VN)、及び、オペレーティング・システム(OS)である。また、ルーチン(例えば、TPC/IPチューナ・ソフトウェア(TS)など)の複数のコピーが同時に具体化できるならば、あるプログラムのコピーは1つだけ記憶されればよいことも明らかである。対照的に、メモリ40のRAM部分は、チューナからオーディオ信号サンプルを受信するビン、キャッシュ、バッファ、又は、キューAS1〜ASNから成る。サンプリングされるオーディオ信号ソースの各々について1つずつ、複数の記憶位置が用意される。メモリ40のRAM部分に設けられた各キャッシュ又はバッファについて、対応するオーディオ信号サンプルのオーディオ信号特性が記憶される対応するNVRAM部分ASC1〜ASCNが存在する。
図4Bは、メモリ40(140)の大部分が大規模音楽記憶エリア48に分離されている代替的なメモリ構造を示す。大きなハードドライブ(例えば1GB超)の場合、この記憶エリアは、サンプル記憶キャッシュAS1〜ASNをこれらキャッシュ又はバッファの少なくとも一部がユーザのお気に入りのオーディオ・ソースからの何分もの及び好ましくは何時間ものマテリアルを圧縮有り又は無しで含むことができるところまで増やすために、省くことができることに注意。ここで、様々なキャッシュAS1〜ASN及びASC1〜ASCNがオーディオ録音・再生機により設けられるため、各キャッシュのサイズは任意でよいことが言及されるべきである。例えば、キャッシュAS1は、比較的小さいサンプル・サイズを必要とするすべてのトーク・オーディオ・ソース又はすべての天気オーディオ・ソースからのオーディオ信号サンプル又はセグメントを記憶する。しかし、ユーザが設定したユーザが関心あるキーワード又はフレーズは、広範囲すぎて、オーディオ信号特性の数がそのオーディオ・ソースに専用のメモリ42に対応するメモリ44のエリアがそのオーディオ・ソースに割り当てられたエリアより広いことが必要となり得る。他の構成も可能であり、そのような構成のすべては本発明の範囲内と考えられる。
オーディオ録音・再生機1がカーラジオ内に組み込まれたとき、キャッシュ・サイズはすべての考えられるオーディオ信号ソースからオーディオ信号サンプルを集めるために制限される可能性がある。なぜなら、ユーザの好みはオーディオ録音・再生機によって学習されるため、数字又はキャッシュ位置は残りのキャッシュのサイズを増やすために減らすことができる。換言すれば、オーディオ録音・再生機は、ユーザが再生する可能性の低いオーディオ信号ソースからのオーディオ信号サンプルを記憶する必要はない。例えば、ユーザが単にオペラ音楽とラップ音楽を好きでない場合、オペラ及びラップ音楽に特化した放送局からの伝送を分析する意味がない。
再び図3を参照すると、ステップS12において、オーディオ・サンプル(又はプログラム)は、利用可能なオーディオ信号ソース又はそのサブセットから取得される。利用可能な実物の又は仮想のチューナ(例えば、チューナ20及び22又はTCP/IPチューナ120a〜120n)が複数存在するとき、サンプリングは、有益的なことに、並列に実行することができることは明らかである。例えば、ユーザが本発明に係るオーディオ録音・再生機が組み込まれた自動車用エンターテイメント・システムのCDプレイヤーを作動させているとき、チューナ20及び22の双方はバックグラウンドにおいてオーディオ信号ソースの積極的なスキャンを行うことができる。ユーザがチューナ20により「引き込まれた」局を聴いているとき、チューナ22だけがオーディオ・サンプリング・ステップを実行するのに利用可能である。オーディオ録音・再生機100のプロセッサ130は、単に、実行される他の機能と釣り合いの取れた数のTCP/IPチューナ120a〜120nを具体化することに注意。例えば、オーディオ録音・再生機100がパーソナル・コンピュータに組み込まれ、そのコンピュータがワード・プロセッサとして用いられている場合、プロセッサ130は、ワード・プロセッシング・ルーチンの性能が劣化し始めるまでTCP/IPチューナ(及び他のソフトウェア装置)を具体化することができる。その場合、ユーザは彼/彼女のスプレッドシート・プログラムを開始すると、プロセッサ130は1以上のTCP/IPチューナをアンロードし(すなわち殺し)、コンピュータのパフォーマンス・レベルを維持する。
ここで、実物の又は仮想のチューナは限られた数しかなく、オーディオ・ソースは1つの長く連続したサンプルでは特徴付けることができないが、より長い時間期間をカバーする複数のオーディオ・サンプル・セグメントでは可能であることから、利用可能なチューナは利用可能なオーディオ信号ソース中を繰り返しスキャンすることができる点が言及されるべきである。したがって、N番目のオーディオ信号ソースが選択されるたびに、オーディオ信号セグメントは後続の分析のためにASNに記憶される。対照的に、ユーザの好みがオーディオ録音・再生機1(100)により学習された後では、オーディオ録音・再生機は、有益的なことに、好みのオーディオ・ソースから何分もの又は何時間ものコンテンツを録音することができるため、例えばユーザが旅行中であって好みのラジオ局を受信できないときなど好みのオーディオ・ソースが利用可能でないときなどに、そのマテリアルを再生することができる。
ステップS14において、オーディオ録音・再生機は記憶されたオーディオ信号サンプルを分析し、オーディオ信号特性を識別する1以上のデータを生成する。例えば、AS1に記憶されたオーディオ信号サンプル又はセグメントは、有益的なことに、音声認識ソフトウェア又は音楽分類ソフトウェアのいずれか或いは双方によって処理できる。オーディオ信号サンプルが両種類の処理を受けるとき、そのような処理は並列に実行されることが好ましいことは明らかである。しかし、直列処理も排除されない。さらに、予め記憶されたオーディオ信号特性が特定のオーディオ信号ソース(例えば、放送局)がすべてのトークのオーディオ信号ソースであることを示しているとき、オーディオ録音・再生機は音楽分類処理を実行する必要はない。なぜなら、「音楽」の圧倒的多数は広告に関連するものであるからである。このステップS14において実行される分析及び特徴付けのルーチンに関する更なる詳細は後述する。
ステップS16において、メモリ40のメモリ位置AS1〜ASNに記憶されたオーディオ信号サンプルのオーディオ信号特性に対応するデータが、対応するメモリ位置ASC1〜ASCNに記憶される。オーディオ信号特性データは、有益的なことに、不変のデータであること、すなわちそのデータは電源オフ及び初期化(すなわち、ステップS10)によっても保持されることは明らかである。例えばRAM42のメモリ位置AS1〜ASNに記憶されたオーディオ信号サンプルは、一般的に、ユーザが次にオーディオ録音・再生機が組み込まれた自動車用エンターテイメント・システムを起動したときに利用可能ではない。
周期的に、オーディオ録音・再生機1(100)は、ユーザがコマンドを入力したか否かをチェックする。より具体的には、ステップS18において、ユーザにより音声コマンドが入力されたか否かを判断するためのチェックが実行される。代替的に又は同時に、オーディオ録音・再生機は、ステップS20において、例えばオーディオ録音・再生機のコントロール・パネルの(又は、オーディオ録音・再生機に関連付けられたリモコン装置(図示せず)の)キーを操作しているユーザによりキー・コマンドが生成されたか否かを判断するためのチェックを実行する。上記チェックの少なくとも一方の答えが否定(N)の場合、ルーチンはステップS12のスタートに戻り、追加的オーディオ信号セグメント又はサンプルの取得を開始する。しかし、いずれかのチェックの結果が肯定(Y)のとき、ルーチンはステップS22へ進む。
ステップS22においては、ステップS18又はステップS20のいずれかにおけるコマンド入力に対応したチューナ制御信号(TCS)が生成される。この信号は、ステップS24において、所定のチューナ(例えば、チューナ20又はTCP/IPチューナ120aなど)に入力され、そのチューナをTCSにおいて指定されたオーディオ信号ソースへジャンプさせる。TCSは、有益的なことに、オーディオ信号がそのチューナによって再生される際の様態(例えば、音量、低音及び高音設定、など)に関する指示を含むことができる。
ステップS26において、オーディオ録音・再生機1(100)にシャットダウン・コマンドが入力されたか否かを判断するチェックが実行される。シャットダウン・コマンドは、例えば、エンターテイメント・システムの電源ボタンの操作の形を採り得る。あるいは、特にオーディオ録音・再生機100の場合においては、ユーザのインターネット接続の意図的なシャットダウン(又は喪失)の形を採ってもよい。シャットダウン・コマンドは、例えばユーザが様々なオーディオ録音・再生機ソフトウェア・モジュールを具体化するのに十分なプロセッサ・リソースが存在しないほど他のプログラムを起動したときなどはいつでも、プロセッサ130自体がシャットダウン・コマンドを提供することができる。いずれにしても、判定結果が否定(N)であれば、本作動方法はステップS12の先頭に戻る。結果が肯定(Y)のとき、オーディオ録音・再生機は、ステップS28において、シャットダウンする。
したがって、本発明に係るオーディオ録音・再生機は、様々なラジオ(又はインターネット・ラジオ)の番組の中を自動的にスキャンして各ラジオ局又はオーディオ信号ソースからオーディオ信号サンプルを収集することができるシステムを提供する。さらに、オーディオ録音・再生機は、有益的なことに、オーディオ・パーソナル化機能(例えば、収集されたオーディオ信号サンプルの一時停止、検索、及び/又は、分類)を実行することができる。自動車のエンターテイメント・システムに組み込まれたとき、本オーディオ録音・再生機は、コンテンツを自動的にスキャンし、音楽が発話かを分類することができる。
オーディオ細分化及び分類はオーディオ信号を異なるカテゴリ(例えば、発話、音楽、など)に対応する部分に分割することを含むことを明らかである。第一の工程は、オーディオ・データの連続的なビット・ストリームを各セグメントがそのクラスについて均質化しているように複数の重ならないセグメントに分割することである。次いで、各オーディオ・セグメントは、上述のような低レベル・オーディオ特性(帯域幅、エネルギ、ピッチ、など)を用いて、分類される。オーディオ・セグメント化及び分類は、本分野では既知であり、その概略は、文献:D.Li、K.Sethi、N.Dimitrova、及びT.Mcgee、「Classification Of General Audio Data For Content−Based Retrieval」、Pattern Recognition Letters、533〜544頁、Vol.22、No.5、2001年4月、に説明されている。その開示全体はここに参考文献として組み込まれる。この論文は、連続した汎用のオーディオ・データをセグメント化し分類基準により7つのカテゴリへ分類する問題を解決する。本発明に係るオーディオ録音・再生機において用いられる7つのオーディオ・カテゴリは、無音、単独話者発話、音楽、環境騒音、複数話者発話、発話と音楽の混在、発話と雑音の混在、を含む。上記論文は、Mel Cepstral Frequency Coefficients(MFCC)、Linear Predictive Coding coefficients(LPC)、delta MFCC、delta LPC、autocorrelation MFCCなどの6つの音響特性セットと複数の時間的・スペクトラム的特性との抽出に用いられる低レベル特性検知に適用できる基本的な定義及びアルゴリズムを提示している。
ここで、オーディオ信号サンプル及びセグメントについて分類及び特徴抽出に関する追加的な詳細は、例えば米国特許第5,918,223号及び米国特許第6,320,623号(B1)に開示されていることが言及されるべきである。特に、米国特許第6,320,623号は、所定のオーディオ・イベントがデータ及び音検知器に接続された補助チューナ(すなわち、ピクチャ・イン・ピクチャ(PIP)・チューナ)の支援により所定のオーディオ・イベントが検知されたときにイベント(例えば、チャンネル切替イベント)をトリガするテレビについて開示している。加えて、米国特許第5,918,223号は、オーディオ・データ・ファイルの分析及び比較を実行する装置について開示している。後者の特許は、特徴の抽出(すなわち、特徴ベクトルの生成)を実行する際に上述のMFCCアルゴリズムを用いることは明らかである。さらに、論文:Serhan Dagtas及びMohamed Abdel−Mottaleb、「Extraction of TV Highlights using Multimedia Features」、Proceedings International Workshop on Multimedia Signal Processing、2001年10月、フランス、カンヌ、は、特徴抽出に関する追加的詳細を提供している。
さらに、利用可能なオーディオ・ソースからの音楽は分類することができ、オーディオ録音・再生機はチューナの1つがユーザの個人プロファイルに対応した局に留まるように制御することができる。例えば、ユーザがジャズの熱烈な愛好家である場合、自動車用エンターテイメント・システムは自動車がある放送領域から別の放送領域に移動しても、ジャズ局に合わせたままにしておく。オーディオ録音・再生機は、音楽ストリームに知覚できる程度の不連続が生じないように、例えば2つの局がコマーシャルを放送中に切り替えたり、隙間をオーディオ録音・再生機のメモリに予め記憶されたジャズで埋めたりして、第一の局と第二の局との間の切替を調整することができることは明らかである。いずれにしても、オーディオ録音・再生機は、ユーザが「何か素敵なものを(find something nice)」などのハイレベル音声コマンドを発したときに、この特定の作動モードに入ることができる。ここで、「素敵な(nice)」とはそのユーザに関連付けられた1以上の音楽カテゴリに対応する。
ラジオ・ニュース局について、本オーディオ録音・再生機は、有益的なことに、ユーザが聴き逃した項目又は関心ある項目を検索するメカニズムを提供することができる。これらの項目は、予め定められていてもよく、或いは、走行中に設定されてもよい。ニュースを記憶し、後で再生するためにユーザのPDA又は携帯電話へ転送できること、又は、キャッシュし、次の日まで、すなわちユーザが彼/彼女の自動車を次回運転するまで保持できること、が好ましい。この作動モードは、現在のレポートが進むのを待機したり、古いレポートを聴いたりするのを防止し、天気及び交通に関する最新のレポートを直ちに再生するために記憶するように拡張することができる。「只今の天気」又は「只今のスコア」に対応する専用のキー及びハイレベル音声コマンドを本オーディオ録音・最盛期に組み込むことができることは明らかである。
また、スキャン・モードにおいて、本オーディオ録音・再生機は、有益的なことに、特定のチャンネルをモニタし、特定のユーザ指定イベントが発生したときにユーザに警告することができることにも注意。これについてのシナリオの一例は、ユーザがニュース・チャンネルを聴いている間、スキャナは複数の様々なスポーツ・イベント(例えば、複数の大学野球やフットボールの試合)を放送している複数のチャンネルをモニタする。本オーディオ録音・再生機は、それらチャンネルを短い間切り替え、面白いイベント(例えば、アナウンサーが「タッチダウン」が決まったこと又は試合が延長戦に入ったことを指摘した)が発生したときはいつでも個別のオーディオ信号を出力する。換言すれば、本オーディオ録音・再生機は、有益的なことにメモリ44(144)に記憶できる「グローバルな」オーディオ信号特性が満足されたとき、すなわち、モニタされたオーディオ信号の1つの特性であると認識されたときはいつでも、そのモニタされたオーディオ信号の1つを出力する。イベントは、音声認識ソフトウェア・モジュールを用いた分析により検知される必要はないことは明らかである。ここで、イベントとは、例えば、群集興奮レベルを示すオーディオ信号サンプルにより指定された一般的に面白いイベントである。いずれにしても、本発明に係るオーディオ録音・再生機は、自動イベント検出及び特徴監視をユーザに提供する。
加えて、本オーディオ録音・再生機は、自動的に、識別されたコンテンツをその貯蔵室に加えることができる。例えば、監視されたオーディオ・ソース(チャンネル又は局)は、所定の十分なメモリにバッファすることができる。有利なことに、ユーザが番組を録音しようとすると、現在の歌の先頭ポイントが検出され、番組全体が録音される。逆に、ユーザが現在の放送中の番組をスキップしたいとき、録音されたマテリアルが再生され、ユーザ経験を向上させることができる。本オーディオ録音・再生機は、繰り返された歌を摘み取り又はコマーシャルやニュース、天気、交通情報を除去することによって、記憶された音楽の量を最適化することができることは明らかである。また、ユーザは、別のハイレベル音声コマンドを用いて、メモリから所望でない歌を除去することもできる。ユーザがオーディオ録音・再生機のメモリ40に記憶された歌のすべて又は少なくともほとんどを魅力的であると考えたとすると、本オーディオ録音・再生機は、有益的なことに、利用可能な曲が無いときに音楽をランダムに選曲することによって「素敵な(nice)」ものという基準に応答することができる。つまり、本オーディオ録音・再生機は複数のチューナと番組マテリアル記憶用のメモリとを有するため、本オーディオ録音・再生機は、有益的なことに、時間ワープ能力を提供する。
好ましいことに、本オーディオ録音・再生機は、概して、複数のオーディオ・ソースについてオーディオ信号サンプル又はセグメントをスキャン及び記憶するため、記憶される音楽の量はわずか数秒にすべきである。これは、本オーディオ録音・再生機にとって、オーディオ特性を抽出し、発話セグメントに対して音声テキスト変換を実行し、そのオーディオ・コンテンツを分析するのに十分なオーディオ信号サンプルである。オーディオから特性が抽出されるとすぐに、本オーディオ録音・再生機は、有益的なことに、分類及び要約機能を実行することができる。これら機能は、次いで、本オーディオ録音・再生機をパーソナル化して高性能なスキャン、検索、記憶、及び転送機能を提供するのに用いられる。本発明に係るオーディオ録音・再生機は、一例として、以下の機能を有する。
1)音楽分類再生機能:本オーディオ録音・再生機は、ビート、エネルギ、ピッチ、メロディの種類、メロディの反復、などに基づいて音楽の種類を識別するのに用いることができるオーディオ特性を認識することができる。これは、特にユーザにとって魅力的に映る音楽の亜属であってもよい。ラジオ局はジャズ、ソフト、クラシック、ロックにカテゴリ分けされるが、この分類方法は多くのユーザにとってしばしば広すぎる。すなわち、ユーザができれば聴きたくない歌手や歌が依然としてそこには存在する。本オーディオ録音・再生機は、例えばユーザが好きな音楽スタイルの複数の歌に対して「好き」ボタンを押すことによって、特定の例を本オーディオ録音・再生機に提供したとき、ユーザが関心さる歌又はコンテンツを選択するのを支援することができる。これは、本オーディオ録音・さいせいきにより出力された音楽をユーザが聴いているときに、又は、ユーザが複数の楽曲の所定の部分(例えば、15秒)を聴くプレビュー・セッション中に行うことができることは明らかである。
2)監視機能:ユーザは、本オーディオ録音・再生機のオーディオ分析器にあるパターンを歌う又はハミングすることができ、本オーディオ録音・再生機はその特定の節を様々なチャンネルでモニタすることができる。さらに、ユーザは、音声認識ソフトウェアを通じて本オーディオ録音・再生機に発話を入力することができ、本オーディオ録音・再生機は、それらの言葉の一部又は全部を含む会話又は独話を様々なチャンネルでモニタすることができる。また、高性能マッチング・アルゴリズム(すなわち、所定の秒数内で2度又は3度同じフレーズが現れたときに一致を宣言するアルゴリズム)もプロセッサ30(13)によって具体化することができる。
3)ニュース・レビュー機能:本オーディオ録音・再生機は、有益的なことに、興味の無い項目をスキップしながら、ユーザが興味あるすべてのニュース・セグメントを要約することができる。事実、本オーディオ録音・再生機は、ダイジェスト版のニュースのみを、すなわち音声認識ソフトウェアによって処理されたニュースのみを再生するようにセットすることができる。ユーザのリクエストにより、本オーディオ録音・再生機は、そのニュース全体を再生することもでき、或いは、より長いバージョンへリンクさせ、ウェブ・サイトから自動的にダウンロードすることもできる。多くの音声認識ソフトウェア・プログラムはテキスト音声変換能力を有していることは明らかであり、本オーディオ録音・再生機は、長いテキスト・ファイルをダウンロードし、それをユーザに読み上げることができる。さらに、本オーディオ録音・再生機は、異なるチャンネル上のニュースを要約し、ユーザがニュースを検索したいときにクイック・サマリー・オプションを提供することができる。この機能は、音声認識ユーザ・インターフェースを通じてアクセスすることができる。
4)時間シフト機能:本オーディオ録音・再生機は、歌又はニュース又は番組(例えば、毎週土曜日のSchikely mix)を記憶し、ユーザが別の局を聴いている場合又はラジオに電源を入れていない場合に専用の音声コマンドを通じてそれらを検索することができる。
5)オートパイロット機能:本オーディオ録音・再生機は、オーディオ話者識別を通じてユーザを識別し、そのユーザが本オーディオ録音・再生機を操作しているのと同じように動作するオートパイロット・モードに入る。例えば、ユーザが本オーディオ録音・再生機が組み込まれた自動車用エンターテイメント・システムを操作するときにユーザがいつも決まって行う操作にしたがって、本オーディオ録音・再生機は、最初にニュースをスキャンし、次にクラシック音楽(朝であれば)又はお気に入りのロック(夕方であれば)を再生する。
オーディオ信号特性はジャンル情報を含むことができることが言及されるべきである。ジャンル情報は、MP3ファイルには通常記憶されており、ストリーミング・オーディオ・トラックを伴ってもよく又は識別してもよい。このジャンル情報は、数値でもよく、或いは、直列処理無しでファイル又はストリームを解釈するのに慣れた本オーディオ録音・再生機が容易に読むことができる例えば「newage」又は「New Age」などの文字列でもよい。これは、ユーザがインターネット無しで放送中のオーディオ・チャンネルを聴いているときに「再生中」の情報をどのように見るか、ユーザが歌の題名や歌手などをどのように受信するか、ということであることは明らかである。追加的な所定の特性情報は、プロセッサ30(130)により具体化されたソフトウェアにより実行された分析及び特徴付けを補完又は贈呈するために本オーディオ録音・再生機に送信され得る。
加えて、欧州において1990年代初期に始まったラジオ局及び信号規格は、コールサインなどのラジオ局に関する情報を取得する「イネーブルド」ラジオを許可したことも明らかである。ラジオがRDS(ラジオ・データ・システム)特徴を用いてネットワーク内のあるプログラムされたサービス放送に合わせられると、同じ放送局からの他の番組に関する高性能他ネットワーク(EON)追加データが受信される。これにより、聴取者は、彼の選択に応じて、旅行情報又は好みの番組種類(PTY;例えばニュース)について自動的に切り替えるモードで彼のラジオを作動させることができ、この情報はあるサービスから到来する。このサービスは、ある時点において、必ずしも上記のような旅行情報を含まず、所望の番組種類も放送しない。この追加データは、有益的なことに、オーディオ信号特性内に組み込むことができる。米国の複数のラジオ局が異なる地理的領域において同じ周波数で作動しており、すべての局が固有のコールサインを用いていることに注意。したがって、本発明に係るオーディオ録音・再生機を備えた自動車は、別々の商圏で作動するロック局99FM及びジャズ局99FMに関するオーディオ特性データを記憶することができる。
つまり、本発明に係るオーディオ録音・再生機は、オーディオ・チャンネル(アナログ及びディジタル放送、インターネットもそれ以外も)の自動モニタリングを可能にすると共に、複数のライブの及び録音されたオーディオ・ソースからの番組マテリアルの自動録音又は再生を可能にすることによってユーザのリスニング経験を向上させる。
多くの特許について上に述べられたことに注意。これら特許の各々は、その全体がここに参考文献として組み込まれる。
本発明の現時点で好ましい実施形態についてここに詳細に説明したが、当業者には明らかなここに開示した基本的な発明のコンセプトの多くの変形例及び/又は改良は請求項記載の本発明の意図及び範囲内に入る。
Claims (14)
- オーディオ録音・再生機であって、
少なくとも2つのオーディオ・ソースに周波数を合わせることによって第一及び第二のオーディオ信号を生成する手段と、
前記第一及び第二のオーディオ信号に対応した第一及び第二のオーディオ信号特性を生成する手段と、
前記第一及び第二のオーディオ信号及び前記第一及び第二のオーディオ信号特性の双方を記憶する手段と、
前記第一及び第二のオーディオ信号特性の一方の選択に応じて前記第一及び第二のオーディオ信号の一方を再現する手段と、を有することを特徴とするオーディオ録音・再生機。 - 請求項1記載のオーディオ録音・再生機であって、
前記チューニング手段は、プロセッサによって具体化される音声認識ルーチンを有する、ことを特徴とするオーディオ録音・再生機。 - 請求項1記載のオーディオ録音・再生機であって、
前記生成手段は、プロセッサによって具体化される音声認識ルーチンを有する、ことを特徴とするオーディオ録音・再生機。 - 請求項1記載のオーディオ録音・再生機であって、
発話コマンドに応じて生成された制御信号を適用して前記再現手段を制御する手段を更に有する、ことを特徴とするオーディオ録音・再生機。 - オーディオ録音・再生機であって、
少なくとも2つのオーディオ・ソースに周波数を合わせることによって第一及び第二のオーディオ信号を生成する手段と、
前記第一及び第二のオーディオ信号の双方について、無音、単独話者発話、音楽、環境雑音、複数話者発話、音声と音楽の混在、及び、音声と雑音の混在を含むN個のオーディオ信号特性を生成する手段と、
前記第一及び第二のオーディオ信号及び前記第一及び第二のオーディオ信号特性の双方を記憶する手段と、
前記N個のオーディオ信号特性の一方の選択に応じて前記第一及び第二のオーディオ信号の一方を再現する手段と、を有することを特徴とするオーディオ録音・再生機。 - オーディオ録音・再生機であって、
N個のオーディオ・ソースによって送信されたN個のオーディオ信号を生成するM個のチューナと、
前記N個のオーディオ信号からR×N個のオーディオ信号特性を抽出する分析器と、
前記R×N個のオーディオ信号特性を記憶するメモリと、
前記R×N個のオーディオ信号特性の少なくとも1つの選択に応じて前記N個のオーディオ信号の1つに対応したオーディオ信号を再現する出力回路とを有し、
前記Rは正の整数であり、
前記M及びNは1より大きい正の整数である、ことを特徴とするオーディオ録音・再生機。 - M個のチューナと分析器と記憶装置とオーディオ出力回路とを含むオーディオ録音・再生機の作動方法であって、
前記M個のチューナを作動させてN個のオーディオ・ソースからN個のオーディオ信号を取得し、
前記分析器を作動させて前記N個のオーディオ信号に特徴を付け、R×N個のオーディオ信号特性を生成し、
前記N個のオーディオ信号及び前記R×N個のオーディオ信号特性の双方を前記記憶装置に記憶し、
前記R×N個のオーディオ信号特性の1つの選択に応じて、前記N個のオーディオ信号の選択された1つを前記オーディオ出力回路を通じて再現し、
前記Rは正の整数であり、
前記M及びNは1より大きい正の整数である、ことを特徴とする方法。 - 請求項7記載の方法であって、
前記N個のオーディオ信号の1つは、前記M個のチューナの1つが前記N個のオーディオ・ソースの対応した1つに周波数が合わせられている間に記憶され、
前記R×N個のオーディオ信号特性は、前記記憶されたN個のオーディオ信号から抽出される、ことを特徴とする方法。 - 請求項7記載の方法であって、
前記R×N個のオーディオ信号特性のうち選択されたものは、前記N個のオーディオ信号に含まれる音楽についての速度、トーン、及びエネルギに対応する、ことを特徴とする方法。 - 請求項7記載の方法であって、
前記R×N個のオーディオ信号特性のうち選択されたものは、前記N個のオーディオ信号に含まれる発話から抽出された言葉に対応する、ことを特徴とする方法。 - 請求項7記載の方法であって、更に、
前記R×N個のオーディオ信号特性の1つをユーザが選択したのに応じて、前記N個のオーディオ信号の前記選択された1つを前記オーディオ出力回路に再現させる制御信号を生成する、ことを特徴とする方法。 - M個のチューナと分析器と記憶装置とオーディオ出力回路とを含むオーディオ録音・再生機の作動方法であって、
前記M個のチューナを作動させてN個のオーディオ・ソースからN個のオーディオ信号セグメントを取得し、
前記分析器を作動させて前記N個のオーディオ信号セグメントに特徴を付け、R×N個のオーディオ信号特性を生成し、
前記R×N個のオーディオ信号特性を前記記憶装置に記憶し、
前記R×N個のオーディオ信号特性の1つの選択に応じて、前記N個のオーディオ信号の選択された1つによって生成されたオーディオ信号を前記オーディオ出力回路を通じて再現し、
前記Rは正の整数であり、
前記M及びNは1より大きい正の整数である、ことを特徴とする方法。 - 請求項12記載の方法であって、更に、
オーディオ信号サンプルがユーザが関心あるイベントの発生を示すときはいつでも前記N個のオーディオ信号の出力された1つと前記N個のオーディオ信号のモニタされた1つとを前記オーディオ出力回路に切り替えさせる制御信号を生成する、ことを特徴とする方法。 - オーディオ録音・再生機に関連付けられたプロセッサに所定の機能のうち少なくとも1つを具体化させるコンピュータ可読命令を記憶したメモリであって、
前記所定の機能は、
前記オーディオ録音・再生機が受信したオーディオ信号中の音楽をオーディオ特徴に基づいて自動的に分類することを可能にする音楽分類機能と、
前記オーディオ録音・再生機が所定のオーディオ・イベントの発生に自動的に応答することを可能にする監視機能と、
前記オーディオ録音・再生機が該オーディオ録音・再生機のユーザが関心さるニュースに対応したオーディオ信号を蓄積・再生することを可能にするニュース・レビュー機能と、
前記オーディオ録音・再生機が後で再生されるオーディオ信号番組を記録することを可能にする時間シフト機能と、
前記オーディオ録音・再生機がユーザにより設定された作動上の好みのパターンに基づいて自動的に作動することを可能にするオートパイロット機能とを含む、ことを特徴とするメモリ。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/086,849 US20030167174A1 (en) | 2002-03-01 | 2002-03-01 | Automatic audio recorder-player and operating method therefor |
PCT/IB2003/000686 WO2003075459A1 (en) | 2002-03-01 | 2003-02-21 | Automatic audio recorder-player and operating method therefor |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005519336A true JP2005519336A (ja) | 2005-06-30 |
Family
ID=27787513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003573781A Pending JP2005519336A (ja) | 2002-03-01 | 2003-02-21 | 自動オーディオ録音・再生機及びその操作方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20030167174A1 (ja) |
EP (1) | EP1483831A1 (ja) |
JP (1) | JP2005519336A (ja) |
KR (1) | KR20040082445A (ja) |
CN (1) | CN1639975A (ja) |
AU (1) | AU2003248912A1 (ja) |
WO (1) | WO2003075459A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007256487A (ja) * | 2006-03-22 | 2007-10-04 | Sanyo Electric Co Ltd | 音楽信号蓄積装置および音楽信号蓄積プログラム |
JP2011514541A (ja) * | 2008-01-16 | 2011-05-06 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 環境内のムード及びソーシャルセッティングに適した雰囲気を自動生成するためのシステム及び方法 |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10119067A1 (de) * | 2001-04-18 | 2002-10-31 | Bosch Gmbh Robert | Verfahren zum Abspielen von Multimediadaten mit einem Unterhaltungsgerät |
US7949723B2 (en) * | 2002-05-14 | 2011-05-24 | Agere Systems Inc. | Real time tuner for providing graphical user interface |
EP1687818A1 (en) * | 2003-11-18 | 2006-08-09 | Koninklijke Philips Electronics N.V. | User aware audio playing apparatus and method |
TWI235358B (en) * | 2003-11-21 | 2005-07-01 | Acer Inc | Interactive speech method and system thereof |
US20050159122A1 (en) * | 2004-01-20 | 2005-07-21 | Mayer Robert S. | Radio with simultaneous buffering of multiple stations |
US20050217585A1 (en) * | 2004-04-01 | 2005-10-06 | Blomiley Eric R | Substrate susceptor for receiving a substrate to be deposited upon |
US7460762B2 (en) * | 2004-04-14 | 2008-12-02 | Godtland Eric J | Automatic selection, recording and meaningful labeling of clipped tracks from broadcast media without an advance schedule |
US8326126B2 (en) * | 2004-04-14 | 2012-12-04 | Eric J. Godtland et al. | Automatic selection, recording and meaningful labeling of clipped tracks from media without an advance schedule |
US7457517B2 (en) | 2004-04-14 | 2008-11-25 | Eric Godtland | Automatic selection, recording and meaningful labeling of clipped tracks from broadcast media without an advance schedule |
US7366461B1 (en) * | 2004-05-17 | 2008-04-29 | Wendell Brown | Method and apparatus for improving the quality of a recorded broadcast audio program |
WO2006033941A1 (en) * | 2004-09-20 | 2006-03-30 | Wms Gaming Inc. | Virtual radio in a wagering game machine |
US7424431B2 (en) * | 2005-07-11 | 2008-09-09 | Stragent, Llc | System, method and computer program product for adding voice activation and voice control to a media player |
US7813823B2 (en) * | 2006-01-17 | 2010-10-12 | Sigmatel, Inc. | Computer audio system and method |
US20090222270A2 (en) * | 2006-02-14 | 2009-09-03 | Ivc Inc. | Voice command interface device |
US8387083B1 (en) * | 2006-09-21 | 2013-02-26 | Adobe Systems Incorporated | Monitoring media content channels |
US8817740B2 (en) * | 2006-10-31 | 2014-08-26 | Motorola Mobility Llc | Methods and devices of a queue controller for dual mode bidirectional audio communication |
US8175885B2 (en) * | 2007-07-23 | 2012-05-08 | Verizon Patent And Licensing Inc. | Controlling a set-top box via remote speech recognition |
US8302130B2 (en) * | 2008-05-06 | 2012-10-30 | Microsoft Corporation | Digital TV scanning optimization |
EP2596627A4 (en) * | 2010-07-20 | 2015-04-01 | Empire Technology Dev Llc | OUTPUT OF CONTENT OF MULTIPLE EQUIPMENT |
CN102299755A (zh) * | 2011-06-24 | 2011-12-28 | 上海山景集成电路技术有限公司 | 基于数字音频信号识别的电台搜索方法 |
CN103970793B (zh) * | 2013-02-04 | 2020-03-03 | 腾讯科技(深圳)有限公司 | 信息查询方法、客户端及服务器 |
CN104092712B (zh) * | 2013-05-22 | 2016-03-23 | 腾讯科技(深圳)有限公司 | 一种基于音频信号传输文件的方法及系统 |
US9911415B2 (en) * | 2014-12-19 | 2018-03-06 | Lenovo (Singapore) Pte. Ltd. | Executing a voice command during voice input |
US10546575B2 (en) | 2016-12-14 | 2020-01-28 | International Business Machines Corporation | Using recurrent neural network for partitioning of audio data into segments that each correspond to a speech feature cluster identifier |
CN107592589A (zh) * | 2017-09-28 | 2018-01-16 | 深圳金喜来电子股份有限公司 | 可助眠的多音源音频处理装置 |
EP3570536A1 (en) | 2018-05-17 | 2019-11-20 | InterDigital CE Patent Holdings | Method for processing a plurality of a/v signals in a rendering system and associated rendering apparatus and system |
US11360466B2 (en) * | 2019-01-04 | 2022-06-14 | Gracenote, Inc. | Generation of media station previews using a secondary tuner |
US11133004B1 (en) * | 2019-03-27 | 2021-09-28 | Amazon Technologies, Inc. | Accessory for an audio output device |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4277544A (en) * | 1979-01-29 | 1981-07-07 | Ipm Corporation | Powder metallurgical articles and method of bonding the articles to ferrous base materials |
US4694490A (en) * | 1981-11-03 | 1987-09-15 | Harvey John C | Signal processing apparatus and methods |
US5903454A (en) * | 1991-12-23 | 1999-05-11 | Hoffberg; Linda Irene | Human-factored interface corporating adaptive pattern recognition based controller apparatus |
US5437050A (en) * | 1992-11-09 | 1995-07-25 | Lamb; Robert G. | Method and apparatus for recognizing broadcast information using multi-frequency magnitude detection |
US5812937B1 (en) * | 1993-04-08 | 2000-09-19 | Digital Dj Inc | Broadcast data system with multiple-tuner receiver |
US5918223A (en) * | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
EP0865651B1 (en) * | 1996-09-27 | 2002-01-09 | Koninklijke Philips Electronics N.V. | Method of and system for recognizing a spoken text |
US6263507B1 (en) * | 1996-12-05 | 2001-07-17 | Interval Research Corporation | Browser for use in navigating a body of information, with particular application to browsing information represented by audiovisual data |
US6173260B1 (en) * | 1997-10-29 | 2001-01-09 | Interval Research Corporation | System and method for automatic classification of speech based upon affective content |
US6054646A (en) * | 1998-03-27 | 2000-04-25 | Interval Research Corporation | Sound-based event control using timbral analysis |
US6320623B1 (en) * | 1998-11-13 | 2001-11-20 | Philips Electronics North America Corporation | Method and device for detecting an event in a program of a video and/ or audio signal and for providing the program to a display upon detection of the event |
US8528019B1 (en) * | 1999-11-18 | 2013-09-03 | Koninklijke Philips N.V. | Method and apparatus for audio/data/visual information |
-
2002
- 2002-03-01 US US10/086,849 patent/US20030167174A1/en not_active Abandoned
-
2003
- 2003-02-21 EP EP03743459A patent/EP1483831A1/en not_active Withdrawn
- 2003-02-21 KR KR10-2004-7013424A patent/KR20040082445A/ko not_active Application Discontinuation
- 2003-02-21 AU AU2003248912A patent/AU2003248912A1/en not_active Abandoned
- 2003-02-21 WO PCT/IB2003/000686 patent/WO2003075459A1/en not_active Application Discontinuation
- 2003-02-21 CN CNA038048523A patent/CN1639975A/zh active Pending
- 2003-02-21 JP JP2003573781A patent/JP2005519336A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007256487A (ja) * | 2006-03-22 | 2007-10-04 | Sanyo Electric Co Ltd | 音楽信号蓄積装置および音楽信号蓄積プログラム |
JP2011514541A (ja) * | 2008-01-16 | 2011-05-06 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 環境内のムード及びソーシャルセッティングに適した雰囲気を自動生成するためのシステム及び方法 |
Also Published As
Publication number | Publication date |
---|---|
EP1483831A1 (en) | 2004-12-08 |
US20030167174A1 (en) | 2003-09-04 |
CN1639975A (zh) | 2005-07-13 |
KR20040082445A (ko) | 2004-09-24 |
AU2003248912A1 (en) | 2003-09-16 |
WO2003075459A1 (en) | 2003-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005519336A (ja) | 自動オーディオ録音・再生機及びその操作方法 | |
US8086168B2 (en) | Device and method for monitoring, rating and/or tuning to an audio content channel | |
US7499630B2 (en) | Method for playing back multimedia data using an entertainment device | |
US6931451B1 (en) | Systems and methods for modifying broadcast programming | |
JP4528763B2 (ja) | インターネットからデータをストリーミングするリアルタイム記録エージェント | |
US20040143349A1 (en) | Personal audio recording system | |
US8260108B2 (en) | Recording and reproduction apparatus and recording and reproduction method | |
EP1197020B1 (en) | Electronic music and programme storage, comprising the recognition of programme segments, such as recorded musical performances and system for the management and playback of these programme segments | |
EP1791130A2 (en) | Utilizing metadata to improve the access of entertainment content | |
US20040267388A1 (en) | Method and system for recording and processing of broadcast signals | |
US20100319015A1 (en) | Method and system for removing advertising content from television or radio content | |
JP2005078072A (ja) | 音声認識及び話者認識を通じて個別化されたサービスを提供するav装置及びその方法 | |
KR20060020114A (ko) | 음악 검색 서비스 제공 시스템 및 방법 | |
CN1729685A (zh) | 音频信号识别方法和系统 | |
CN100546267C (zh) | 用于处理信息的系统、装置、方法、记录介质和计算机程序 | |
CN101355673B (zh) | 信息处理装置和信息处理方法 | |
KR20050085829A (ko) | 오디오 신호 식별 방법 및 시스템 | |
KR100499032B1 (ko) | 텔레비젼 수신기를 기반으로 하는 오디오 및 비디오 합성편집장치 | |
JP3925466B2 (ja) | ストリームデータ編集方法及びその装置 | |
JP3565261B2 (ja) | データ検索方法、情報提供システム、および記録媒体 | |
KR100798524B1 (ko) | 매체 신호 검색 및 레코딩 방법 및 장치 | |
KR100700783B1 (ko) | 오디오 파일 재생 방법 및 장치 |