JP2005518560A - 音楽部分を自動で選り分けて格納するデジタル再生装置及びその方法 - Google Patents

音楽部分を自動で選り分けて格納するデジタル再生装置及びその方法 Download PDF

Info

Publication number
JP2005518560A
JP2005518560A JP2003570347A JP2003570347A JP2005518560A JP 2005518560 A JP2005518560 A JP 2005518560A JP 2003570347 A JP2003570347 A JP 2003570347A JP 2003570347 A JP2003570347 A JP 2003570347A JP 2005518560 A JP2005518560 A JP 2005518560A
Authority
JP
Japan
Prior art keywords
music
data
music data
unit
digital
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003570347A
Other languages
English (en)
Inventor
ホソン アン
Original Assignee
ホソン アン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ホソン アン filed Critical ホソン アン
Publication of JP2005518560A publication Critical patent/JP2005518560A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10009Improvement or modification of read or write signals
    • G11B20/10268Improvement or modification of read or write signals bit detection or demodulation methods
    • G11B20/10287Improvement or modification of read or write signals bit detection or demodulation methods using probabilistic methods, e.g. maximum likelihood detectors
    • G11B20/10296Improvement or modification of read or write signals bit detection or demodulation methods using probabilistic methods, e.g. maximum likelihood detectors using the Viterbi algorithm
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/02Analogue recording or reproducing
    • G11B20/04Direct recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • G10H1/0041Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B19/00Driving, starting, stopping record carriers not specifically of filamentary or web form, or of supports therefor; Control thereof; Control of operating function ; Driving both disc and head
    • G11B19/02Control of operating function, e.g. switching from recording to reproducing
    • G11B19/16Manual control
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00992Circuits for stereophonic or quadraphonic recording or reproducing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/011Files or data streams containing coded musical information, e.g. for transmission
    • G10H2240/046File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
    • G10H2240/061MP3, i.e. MPEG-1 or MPEG-2 Audio Layer III, lossy audio compression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/005Algorithms for electrophonic musical instruments or musical processing, e.g. for automatic composition or resource allocation
    • G10H2250/015Markov chains, e.g. hidden Markov models [HMM], for musical processing, e.g. musical analysis or musical composition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/005Algorithms for electrophonic musical instruments or musical processing, e.g. for automatic composition or resource allocation
    • G10H2250/015Markov chains, e.g. hidden Markov models [HMM], for musical processing, e.g. musical analysis or musical composition
    • G10H2250/021Dynamic programming, e.g. Viterbi, for finding the most likely or most desirable sequence in music analysis, processing or composition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/1062Data buffering arrangements, e.g. recording or playback buffers

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Probability & Statistics with Applications (AREA)
  • Circuits Of Receivers In General (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

【課題】 受信されるラジオ放送コンテンツの中から再生することができる音楽部分を自動で選り分けて格納するデジタル再生装置及びその方法を提供する。
【解決手段】 チューナで放送信号を音響出力部に出力すると共に,DSPに印加すると,DSPは前記放送信号をデジタルデータに変換して音楽抽出部に印加し,音楽抽出部は音楽抽出アルゴリズムによって前記デジタルデータ中から音楽データのみを抽出し,マイクロプロセッサは抽出した前記音楽データの始めと終わりを認識して音楽データ格納部の臨時領域に臨時格納しかけて現在出力する音楽を格納する命令が入力されると,前記音楽データ格納部の臨時領域から確定領域に移転して格納し,その格納状態を確定して維持する。

Description

本発明は,音楽部分を自動で選り分けて格納するデジタル再生装置及びその方法に関し,詳しくは,受信されるラジオ放送コンテンツの中から音楽部分のみを自動で選り分けてユーザの録音選択によってその音楽の始めから終わりまで自動で選り分けて格納するデジタル再生装置及びその方法に関する。
最近,音楽愛好者の中には,既存のアナログ音楽再生器に比べて高品質の音楽を聞くことができるデジタル音楽再生器がたくさん使われている。デジタル音楽再生器はデジタル音楽ファイルを再生する装置であって,音楽の読取り及び書込みが可能な不揮発性デジタルメモリ(メディアカード)を備えて音楽データを格納することができるので,極めて小さな大きさで具現できる特徴がある。このような長所によって,MP3(MPEG Audio−Layer3)プレーヤーという携帯用デジタル音楽再生器が急速に普及されている傾向にある。また,最近MP3プレーヤーは格納された音楽データを聞くことができるだけでなく,リアルタイムでFMラジオ音楽放送を聞くことができるようにラジオ機能も備えているものが一般的である。
図1は,従来のラジオ機能を備えたMP3プレーヤーの構成を示すブロック構成図である。
従来のMP3プレーヤー100は,アンテナ110,チューナ120,音響出力部130,DSP(Digital Signal Processor:140),外部機器接続部150,コントローラー160,音楽データ格納部170,表示部180及びキー操作部190等からなる。
アンテナ110は公衆波信号を受信し,チューナ120はアンテナ110に受信される公衆波信号中から現在合わせているチャンネルに該当するラジオ信号を受信して出力する。音響出力部130は,チューナ120で受信されたアナログ音響信号をフィルタリングしたり増幅したりして可聴音で出力する。
DSP(デジタル音響処理部:140)は,チューナ120で受信されたラジオアナログ信号をデジタルデータに変換したりデジタル音楽データをアナログ信号に変換したりして出力する。また,DSP140は,符号化された音楽データを復号化してアナログ信号に変換出力する。
外部機器接続部150は,MP3音楽データをダウンロードするために,外部機器(例えば,コンピュータ)と接続する。コントローラー160は,MP3音楽データの格納及び出力,または,ラジオ放送信号の受信及び出力を制御する。
音楽データ格納部170はMP3ファイルで圧縮された多数の音楽データが格納されるフラッシュメモリ,または,ハードディスク形態の格納媒体であって,例えば,64Mバイト,または,128Mバイトの場合,略16〜32曲のMP3音楽ファイルデータを記録格納することができる。表示部180は装置の動作状態を表示し,キー操作部190はラジオ放送チャンネルを選択したりMP3音楽ファイルを選択したりして出力するのに必要とする入力動作を遂行するためのものである。
即ち,ユーザが上記のように構成されたMP3プレーヤー100を操作して音楽を聞こうとする場合,ラジオ機能を選択してリアルタイムで希望するチャンネルのラジオ音楽放送を選択して聴いたり,音楽データ格納部170に格納されている音楽データ中から聴取を希望する音楽データを選択したりして聴取する。
特に,ラジオ機能を選択して,例えば,FM音楽放送を聴取する途中に録音格納を遂行する際には,キー操作部190に備えられた録音ボタン(図示せず)を押して現在聞いている音楽の録音動作を遂行する。その際,コントローラー160は,DSP130を制御して現在チューナ120から出力する音楽信号をデジタルデータに変換して音楽データ格納部170に格納する。そして,ユーザは音楽が終わる時点に更に録音ボタンを押えることにより,録音を終了することになる。このため,ユーザは音楽の始めと終わりの部分をよく認識するために相当に集中しなければならない。
ユーザがラジオ音楽放送を聴取する途中に録音格納を遂行する場合,音楽放送で放送する音楽に対して紹介があった後に音楽が放送されれば, ユーザは録音する準備をしかけて録音動作を遂行することができる。しかしながら,大部分はユーザがその音楽の始めの部分を聴取しかけて録音をするという判断を下して録音動作を遂行することになるので,リアルタイムで受信される音楽はある程度経過しかけて音楽データ格納部170に格納される。従って,ユーザが録音格納を終了した後,更に再生して聴取する際は,その音楽の始めの部分がある程度経過した部分から聴取することになる。ここで,従来のMP3プレーヤー100でラジオを聴取して音楽を格納しようとする場合,ある程度経過した後でもその音楽の始めの部分から格納して,更に再生できる機能が要求されてきた。
本発明は,このような問題を鑑みてなされたものであり,ユーザが受信される放送信号の中から音楽部分のみを選り分けて手動で格納する不便さを解決するために,デジタル再生装置で受信されるラジオ放送コンテンツ中,音楽部分のみを自動で選り分けて,いつでもユーザの選択によって放送される音楽の始めの部分から格納した後,再生することができる音楽部分を自動で選り分けて格納するデジタル再生装置及びその方法を提供することを目的とする。
上記課題を解決するために,本発明のある観点によれば,放送信号を受信して選局するチューナと,選局された放送信号を可聴音で出力する音響出力部と,音楽データを臨時格納する臨時格納領域と確定して格納する確定格納領域とを備える音楽データ格納部と,装置の動作状態を表示する表示部とを含み,上記放送信号中,音楽信号のみを抽出して音楽データに格納するデジタル音楽録音再生装置であって,上記放送信号をデジタルデータに変換したりデジタルデータをアナログ信号に変換したりし,デジタルデータを音楽データに圧縮して符号化(Encoding)したり圧縮されたデジタルデータを復号化したりして出力する信号処理部と,信号処理部から出力されたデジタルデータを音楽抽出アルゴリズムによって音楽データと非音楽データとに切離して音楽データのみを抽出し,抽出した前記音楽データの始めと終わりを認識する終始データを生成し出力する音楽抽出部と,デジタル再生装置の動作モードをラジオ放送を受信するモードに切換える放送キーと放送される音楽信号に対して録音格納を実行するようにする録音器とが備えられたキー入力部と,信号処理部を制御して音楽抽出部により抽出された音楽データのみを音楽データ格納部の臨時格納領域に臨時格納し,録音キーの入力がある場合,臨時格納領域に臨時格納された音楽データを確定格納領域に移転し格納し,その格納状態を確定して維持するマイクロプロセッサとを含むことを特徴とするデジタル音楽録音再生装置を提供する。
また,上記課題を解決するために,本発明の別の観点によれば,放送信号を受信し選局するチューナと,選局された放送信号を可聴音で出力する音響出力部と,放送信号をデジタルデータに変換したりデジタルデータをアナログ信号に変換したりし,デジタルデータを音楽データに圧縮して符号化(Encoding)したり圧縮されたデジタルデータを復号化したりして出力するDSP(Digital Signal Processor:デジタル信号処理プロセッサ)と,DSPで受信されたデジタルデータの中から音楽データのみを抽出する音楽抽出部と,音楽データを格納する音楽データ格納部と,装置の動作状態を表示する表示部と,ラジオ放送を受信するモードに切換えたり放送される音楽信号に対して録音格納を実行したりする命令を入力するキー入力部とを備えるデジタル再生装置の音楽部分選り分け格納方法であって,(a)チューナで放送信号を音響出力部に出力すると共に,DSPに送信するステップと,(b)DSPで放送信号をデジタルデータに変換して音楽抽出部に出力するステップと,(c)音楽抽出部が音楽抽出アルゴリズムによってデジタルデータ中から音楽データのみを抽出するステップと,(d)抽出した音楽データの始めと終わりを認識して音楽データ格納部に臨時格納するステップと,(e)音響出力部に現在出力される音楽を格納する命令がキー入力部により入力されたのかを判断するステップと,(f)音楽データ格納部に臨時格納されている音楽データの格納状態を確定して維持するステップとを含むことを特徴とするデジタル再生装置の音楽部分選り分け格納方法を提供する。
以上,説明したように,本発明によれば,デジタル再生装置に受信される放送信号を可聴音で出力するだけでなく,人工神経網または周波数分析または隠匿マールコーフモデルを用いて放送信号の中から音楽信号のみを選り分けてデジタル音楽データで格納することができる装置及び方法が実現できる。
また,受信する放送信号の中から音楽部分のみを切離してその出力音楽の始めと終わりの部分を認識して始めの部分から格納できるようにすることにより,ユーザが音楽を聴取しかけて録音動作を行なう際,聴取する音楽の始めの部分がある程度経過しても,その音楽の始めの部分から録音格納することができる装置及び方法が実現できる。
従って,ユーザが聴取する音楽の録音格納のために録音ボタンを押える動作と音楽が終わる時点で再度録音ボタンを押える煩わしさと録音のための相当な注意集中動作の煩わしさが解決できる。
以下,添付の図面を参照しながら本発明に係る望ましい実施の形態を詳細に説明する。なお,本明細書及び図面において,実質的に同一の機能構成を有する構成要素については,同一の符号を付することにより重複説明を省略する。
図2は,本発明の望ましい実施の形態によって音楽部分を選り分けて格納するデジタル再生装置の構成を示すブロック構成図である。図2に示しているブロック中,図1と同じ部分に対しては同じ参照番号を与え,その詳細な説明は省略する。
図2に示している本発明に係るデジタル再生装置200は,DSP210,音楽抽出部220,キー入力部230,マイクロプロセッサ240及びプログラムメモリ250を含む。
DSP210は,アナログ信号をデジタル信号に変換するADC(Analog to Digital Converter)211と,DSP210の全般的な動作を制御するDSPコア(Core)212と,デジタル信号をアナログ信号に変換するDAC(Digital to Analog Converter)213と,アナログ信号を例えばMP3ファイルのデータで圧縮して符号化するエンコーダ214と,マイクロプロセッサ240の制御命令によってチューナ120で受信される放送信号をデジタルデータに変換したり符号化したりして圧縮し,圧縮されたデジタルデータを復号化して出力するプログラムが格納されたDSPプログラム部215と,圧縮されたデジタルデータを復号化するデコーダ216とを含んで構成される。勿論,同じ構成でDSP210の代りにハードウェア方式の信号処理部により構成することもできる。
音楽抽出部220はDSP210で受信されるデジタル信号を音楽抽出アルゴリズムによって音楽データと非音楽データとに切離して非音楽データは除去し,音楽データのみを抽出する機能を遂行する。このような機能を遂行するために音楽抽出部210は人工神経網,周波数分析または隠匿マールコーフモデル(HMM:Hidden Markov Model,以下, HMMという)等の技法を用いる。
キー入力部230はチャンネルを選択するチャンネル選択キーや音響出力のボリュームを調節するボリューム調節キーを始めとして,デジタル再生装置の動作モードをラジオ放送を受信するモードに切換える放送キー232及び放送される音楽信号に対して録音格納を実行するようにする録音キー234を含む。
デジタル再生装置の動作モードが放送受信モードの場合,チューナ120で受信される放送信号がDSP210と音楽抽出部220とにより音楽データのみ切離されて音楽データ格納部170に臨時格納される。キー入力部230に備えられた録音キー234が入力される場合,音楽データは,現在出力中で,内部的に臨時格納中の音楽データの始めの部分から音楽データ格納部170に確定格納する。マイクロプロセッサ240は,音楽データを格納する過程を全体的に制御する。
音楽データ格納部170は,音楽データを臨時格納する臨時格納領域と録音格納命令によって確定的に格納する確定格納領域とに区分される。臨時格納領域には一曲分のデータが格納され,マイクロプロセッサ240は録音キー234の入力がある曲に対して臨時格納領域に格納された音楽データを確定格納領域に移転して確定格納する。
図3は,本発明の第1実施の形態により,人工神経網からなる音楽抽出部220の内部構成を示すブロック構成図である。
第1実施の形態に係る音楽抽出部220は,人工神経網(Artificial Neural Networks)を用いて現在設定されたチャンネルに受信される放送信号中,音楽データのみを音楽抽出アルゴリズムによって抽出する。人工神経網を用いた音楽抽出アルゴリズムは,放送信号中に含まれている多量の音響信号を入力受けて演算を遂行することにより,入力データの次元を減少させて,音楽信号と非音楽信号とに切離し,非音楽信号は除去して音楽信号のみが出力できるようにする。
本発明の第1実施の形態に対する理解を助けるために人工神経網について詳細に説明する。
人工神経網とは,人間や動物の脳の構造を摸倣した計算モデルである。これは,脳の神経細胞が互いに複雑に連結した状態で相互作用することにより,並列分散方式により情報を処理するという点に着目したのである。即ち,閾値を有する神経素子(Threshold Logic Unit)等を使用して神経網を形成した後,与えられた神経網をデータのような環境に適応させる学習アルゴリズムを適用するのである。
このような神経網を形成する構造によっていろいろな神経網モデルが存在することになるが,実際に良く応用されるモデルは多層パーセプトロン(Multi−layer Perceptron)構造である。この構造では,神経素子が層(Layer)を形成し,このような層には図3に示すように,入力,出力の以外にも中間層に該当する隠匿ノード(Hidden Unit)層がある。各層内では素子間に連結線が存在しなくて,隣接した層間には各ニューロンが他の全てのニューロンと連結している。その時の方向は入力素子から出力素子方向であり,これを順次方式(Feed−forward)という。また,素子間の連結線には加重値(Wmh)が与えられて,以前の層の結果を次の層に合算することになるが,神経網が学習する対象がその加重値であり,代表的な加重値学習方法としてはエラー逆伝播(Error Backpropagation)方式がある。本発明では,人工神経網中,最も一般的な形態である多層パーセプトロン構造を使用し,断層隠匿ノード,順次方式,エラー逆伝播学習方法を使用する。
本発明の第1実施の形態により人工神経網を用いた音楽抽出部220は,人工神経網として周波数に対する性向を学習し,多層パーセプトロン構造の神経網を用いる。神経網を学習させる際は,多くのパラメータを適切に調整することが核心であるが,具体的なパラメータとしては神経網が学習を繰返す期間(Epoch),隠匿ノード(Hidden Unit)個数等がある。このように神経網を用いて放送信号を音楽信号と非音楽信号とに切離した音楽抽出部220は,非音楽信号を除去し,音楽信号のみを抽出する。
次に,上記のように構成された人工神経網を用いて音楽データを抽出するデジタル再生装置の動作を図4に示すフローチャートを参照して説明する。
図4は,本発明の第1実施の形態に係るデジタル再生装置において,人工神経網を用いて音楽部分を自動で選り分けて格納する方法を示すフローチャートである。
先ず,本発明に係るデジタル再生装置200に電源が供給され,キー入力部230のキー入力に基づいてマイクロプロセッサ240が装置の全般を制御することができる待機状態(S402)において,ユーザがラジオ放送を聴取するためにキー入力部230に備えられた放送キー232を入力すれば(S404),マイクロプロセッサ240はチューナ120を制御して現在設定されているチャンネルで放送信号が受信できるようにし,かつ,DSP210を制御して受信される放送信号を符号化してデジタルデータに変換する。勿論,ユーザはキー入力部230に備えられたチャンネル選択キーを操作して,他のチャンネルに切換えることができる。マイクロプロセッサ240はキー入力部230により設定されたチャンネル選択を記憶しているが,ユーザがキー入力部230を用いてチャンネル選択をしない限り,以前に設定されているチャンネルに放送信号が受信されるようにチューナ120を制御する。もし,ユーザがキー入力部230を用いて他のチャンネルを選択することになると,マイクロプロセッサ240はユーザが選択した他のチャンネルの放送信号が受信されるようにチューナ120を制御する(S406)。
上記の放送信号は,チューナ120で受信される。チューナ120は,設定されたチャンネルの放送信号を音響出力部130に出力すると共に,DSP210に出力する。音響出力部130は,チューナ120で受信したアナログ放送信号を可聴音で出力する。一方,DSP210は,DSPコア212がチューナ120で受信した放送信号をADC211を用いてデジタルデータに変換し,エンコーダ214を用いて音楽ファイルのデータに符号化して音楽データ格納部170の音楽格納領域に臨時格納する。これは,ユーザが現在放送を聴取しながら音声が含まれた音楽を聞いているが,デジタル再生装置200の内部では聴取する放送信号の中から音楽信号のみを抽出して,臨時格納しかけて録音格納命令時に現在聴取する音楽を確定格納するようにするためである。
デジタル再生装置200で受信される放送信号は音楽を放送する音楽区間や商品等を宣伝する広告区間,DJ(Disk Jockey)や出演者の音声が出てくる音声区間等,多様である。このような放送信号はアンテナ110で受信されてチューナ120に送られる。チューナ120は,現在設定されたチャンネルの放送信号をDSP210に出力する(S408)。DSP210は,放送信号をADC211とDSPコア212とDAC213とを経由させて音響出力部130に出力すると共に,エンコーダ214を用いて音楽信号をデジタル音楽データ,例えば,MP3ファイルの音楽データに符号化した後,音楽抽出部220に出力する(S410)。
音楽抽出部220は図3に示すように,DSP210から出力された放送信号を入力として,人工神経網を用いて予め決まった音楽抽出アルゴリズムによって音楽と非音楽データとに切離し,その中で非音楽データを除去した音楽データのみを音楽データ格納部170の音楽データ格納領域に臨時格納する(S412)。即ち,マイクロプロセッサ240は,DSP210を制御して現在音響出力部130に出力されている音楽に対して常に音楽データ格納部170の音楽格納領域に格納し,かつ,キー入力部230から録音格納命令があれば音楽データ格納領域に臨時格納した音楽データを遡及格納して維持するようにするのである。
音響出力部130から音楽が出力されている途中に,ユーザが音楽を聞いて現在出力されている音楽を録音しようとする場合,キー入力部230に備えられた録音キー234を入力する。録音キー234が入力されると(S414),マイクロプロセッサ240は,DSP140を制御して現在出力される音楽データ,即ち,内部的に音楽データ格納部170の音楽格納領域に臨時格納される音楽データを確定格納領域に移転して確定格納し,その格納状態を維持する(S416)。
その際,音楽データ格納部170の音楽格納領域に臨時格納される音楽データは各曲毎に受信される順序によって順次に格納される。もし,録音キー234の入力がない場合,音楽抽出部220により音楽データのみ継続的に音楽データ格納部170に格納される。ここで,音楽データが,音楽データ格納部170の格納容量を超る場合,即ち,格納される容量が飽和状態になった状態で新しい音楽データが格納される場合,DSP210は音楽データ格納部170に格納されていた以前の音楽データのうち,録音格納に関する命令のない曲のデータを先に記録された順に一曲ずつ削除した後,新しい音楽データを格納する。
一方,キー入力部230に音楽データを削除する機能に関するキーを備えて,音楽データ格納部170に格納された音楽データのリストを表示部180に出力し,ユーザが選択して削除キーを操作することにより,削除することもできる。
上記第1実施の形態によれば,デジタル再生装置200に受信される放送信号を可聴音で出力するだけでなく,人工神経網を用いて放送信号の中から音楽信号のみを選り分けてデジタル音楽データに格納することができる。
図5は,本発明の第2実施の形態により周波数の分析を用いた音楽抽出部500の内部構成を示すブロック構成図である。
一般に,ラジオ放送で音響を出力する方式には,モノ(Mono)方式とステレオ(Stereo)方式等がある。
モノ方式は,一つの周波数チャンネルを使用して音響信号を放送するものであって,音の発源地に関係なしに,一つの場所に配置された音響取得手段により取得した音響を放送するものであるから,オーディオシステムを介して出力される音響信号は元の音響信号とは多少差が生じることになる。一方,ステレオ方式は,複数の周波数帯域を使用して音響信号を放送するものであって,音の発源地によって左側ステレオ信号と右側ステレオ信号とに分けて,左側ステレオ信号と右側ステレオ信号とを各々複数個の周波数帯域に伝送されるようにするものであるから,モノ方式に比べて原音に近い音響信号が出力される特徴がある。
一般のラジオ放送で放送される音は,略4種類に分類される。例えば,ラジオ放送コンテンツは放送出演者の音声区間,背景音楽と出演者の音声とが共存する区間,広告区間及び音楽区間等に分れる。その中で,音声区間は概ねモノ(Mono)信号に,音声の以外の区間は概ねステレオ(Stereo) 信号に近い。放送信号において,ステレオ信号はその信号の特性上,左,右チャンネルの情報が少しずつ異なるが,これを用いて両チャンネルの時間に伴う音声波形の位相値を比較して左,右チャンネルの値が同じ場合はモノ信号と判断し,その際,モノ信号の音声信号を除去すると,大部分ステレオ信号の音楽信号を得ることができる。
図5に示している第2実施の形態に係る音楽抽出部500は,放送信号を分析してモノ信号とステレオ信号とに切離し,その中でモノ信号を除去することによりステレオ信号を得るのである。即ち,モノ信号とステレオ信号とが含まれた放送信号を時間軸上に表し,時間軸上で放送信号の左側チャンネルと右側チャンネルとの音量の差を計算して「0」に近ければモノ信号と判断し,任意の閾値以上,一定時間間持続する場合はステレオ信号と判断して,モノ信号を除去し,ステレオ信号のみを出力する。
本発明の第2実施の形態に係る周波数分析を用いたデジタル再生装置の音楽抽出部500は,音響データ演算部510,非音楽除去部520,音楽終始判断部530及びスペクトル分析部540等を含む。
音響データ演算部510はDSP210で受信される放送データの左チャンネルデータと右チャンネルデータとを演算して,その結果データを出力する。非音楽除去部520は音響データ演算部510で受信された結果データが「0」に近いデータならばモノデータと判断し,結果データが閾値以上の値で,一定時間間持続する場合,ステレオデータと判断して,モノデータは除去し,ステレオデータのみを出力する。
音楽終始判断部530は,非音楽除去部520で受信された音楽データをDSP210に出力しながらその音楽データの始めと終わりの部分を識別してこれを認識する終始データを生成してマイクロプロセッサ240に伝送する。このような伝送のために,音楽データの出力とは別途に出力ポートを備える。また,音楽終始判断部530は,以前の音楽データと次の音楽データとの重なる部分が存在したり,両音楽データ間に黙音区間が無しに連続して,音楽データの始めと終わりの部分を識別できない場合には,スペクトル分析部540にその音楽データを送信する。スペクトル分析部540は,音楽終始判断部530で受信された音楽データをスペクトル分析して音楽の始めと終わりの信号を分別して,これを認識する終始データを生成し,マイクロプロセッサ240に伝送する。
音楽の終始部分を区別することにおいて,本発明に係るデジタル再生装置200は音楽データの終わりの部分に処理されているフェードアウト(Fade−out)を検出してこれに基づいて始めと終わりを識別する。大部分の音楽放送で放送される音楽の場合,音楽の終わりはフェードアウト処理されている。従って,本発明の第2実施の形態に係る音楽抽出部500の音楽終始判断部530は,音楽データのフェードアウト部分を検出してこれに基づいて,その音楽の終わりまたは次の音楽の始めと識別する。
また,音楽放送信号は図6に示すように,先に伝送される音楽信号Aと次の音楽信号Bとの間に黙音(Mute)信号が存在する場合がある。音楽終始判断部530は時間につれて出力進行される音楽信号から黙音が表れる場合,その音楽信号Aの終わりと認識し,黙音を過ぎて次の音楽信号Bが繋がる際,その部分を次の音楽信号の始めと認識して,これに基づいて終始データを生成しマイクロプロセッサ240に出力する。
一般に,周波数信号は音声や音楽信号が存在する区間ではエネルギー値が高く表れる。音楽終始判断部530は,これを用いてエネルギー変化量を計算してエネルギーが低い区間を黙音区間と認識して,音楽の終点の候補としてみなし,その際,エネルギー値は非音楽除去部520で受信される音楽データをフレーム単位にしてその位相値を自乗してログ(Log)を取って得る。
そして,一つの音楽信号はクラシック音楽でない場合,大部分3〜5分程度の分量を有する。黙音のみで音楽の始点と終点を検出する場合,音楽の中間黙音部分を始点や終点と認識する恐れがあるため,音楽終始判断部530は,音楽検出区間の長さが略3〜5分程度となることを考慮して,音楽区間を抽出することにより,その音楽の始めと終わりとを判断して判断エラーを減らす。
次に,上記のように構成された周波数分析を用いた音楽抽出部500が採用されたデジタル再生装置の動作について図7を参照して詳細に説明する。図7は,本発明の第2実施の形態によりデジタル再生装置において,周波数分析を用いて音楽部分を選り分けて格納する方法を示すフローチャートである。
先ず,ユーザが放送を聴取する機能と既に格納された音楽データを再生する機能とを全て備えたデジタル再生装置200を使用することにおいて,キー入力部230に備えられた放送キー232を操作して放送モードを選択した場合,マイクロプロセッサ240はチューナ120を制御して,選択された放送チャンネルで放送信号が受信されるようにする(S702)。
チューナ120ではアンテナ110に受信された放送信号を音響出力部130に出力するだけでなく,DSP210にも送信する(S704)。これは,ユーザには音響出力部130に出力される放送を聴取するようにするだけでなく,装置の内部的には音楽のみを抽出し格納する準備を調えるためであるということは既に上述した通りである。DSP210では放送信号がADC211によりデジタルデータに変換され,DSPコア212はデジタル音楽データを左チャンネルデータと右チャンネルデータとに切離して音楽抽出部220に送信する。DSP210から出力された左チャンネルと右チャンネルの音楽データは音楽抽出部220の音響データ演算部510に送信される(S706)。音響信号演算部510ではDSP210で受信された左チャンネルデータと右チャンネルデータとを演算して,その結果データを出力する(S708)。即ち,左チャンネルデータと右チャンネルデータとを演算して「0」に近いデータを得るとモノデータと,閾値以上,一定時間間維持するとステレオデータと認識する結果データを出力する。
非音楽除去部520では,音響データ演算部510で受信した結果データに基づいて音声データを除去し,ステレオデータに該当する音楽データのみを音楽終始判断部530に出力する(S710)。音楽終始判断部530では,非音楽除去部520で受信した音楽データの始めと終わりを判断するが,第1に,音楽データに処理されているフェードアウトに基づいて始めと終わりを判断したり,第2に,音楽データ中に存在する黙音に基づいて始めと終わりを判断したり,第3に,音楽データの平均再生時間3〜5分に基づいて判断したり,第4に,以前の音楽データと次の音楽データとの重なる部分がある場合,スペクトル分析部540に出力してスペクトル分析を用いて判断したり,第5に,音楽データをフレーム単位にしてその位相値を自乗してログ(Log)を取ってエネルギー値を得て,これに基づいて判断する過程を含み,以上5種類の過程を総合して音楽データの始めと終わりを判断する。そして,音楽データの始めと終わりを知らせる終始データを生成しマイクロプロセッサ240に伝送する。マイクロプロセッサ240は,終始データを音楽データ格納部170の非音楽格納領域に格納する(S712)。
音楽終始判断部530では終始データの出力だけでなく,音楽データをDSP210に出力することにより,DSP210が現在出力される音楽データを符号化して音楽データ格納部170の臨時格納領域に格納されるようにする。それによって,ユーザが現在聴取する音楽の録音格納を遂行することができる準備を調えることになる。
ユーザが音楽を聞いている途中に,現在聴取する音楽を録音格納するためにキー入力部230に備えられた録音キー234を入力する場合(S714),マイクロプロセッサ240は現在出力されている音楽データの終始データを音楽データ格納部170の非音楽格納領域から読取って,これに基づいて音楽データ格納部170の臨時格納領域に臨時格納されている前記の音楽データをその始めの部分と終わりの部分を認識して確定格納領域に移転して格納し,その音楽データの格納状態を確定して維持する(S716)。
ここで,音楽データ格納部170の臨時格納領域は1曲の音楽データを臨時格納することができる容量であって,現在DSP210に受信される音楽データを臨時格納し,かつ,録音キー234の入力がなしに次の音楽データが受信される場合,先に臨時格納された音楽データを削除して新しく受信される音楽データを臨時格納する。また,「確定し維持する」というのは,第1実施の形態でも説明したように,音楽データ格納部170の臨時格納領域に格納されている音楽データを確定格納領域に移転して確定格納することにより,その格納状態を固定的に格納維持するということを意味する。勿論,固定的に格納維持された前記音楽データはユーザがキー入力部230を用いて選択的に削除できる。
そして,音楽データ格納部170の確定格納領域には略6曲以下の音楽データが格納されるので,確定格納された音楽データが既に確定格納領域を全て占めている状態で,臨時格納領域に格納される音楽データに関する録音キー234の入力がある場合,マイクロプロセッサ240は表示部180に音楽データの格納状態が充満している状態であることを表す,例えば,「音楽をこれ以上格納することができません。既に格納された音楽を削除して格納しますか?」というメッセージを出力し,キー入力部230でキー入力を待機する。削除実行に関するキー入力があれば,マイクロプロセッサ240は,音楽データ格納部170の確定格納領域に格納されている音楽データのリストを表示部180に出力し,最上段に位置する音楽データリストに表示バーを位置させて削除できるようにする。ユーザにより削除に関するキー入力があれば,表示バーが位置する音楽データを確定格納領域から削除し,臨時格納領域にある音楽データを移転して確定格納する。
ステップS714において,ユーザが録音キー234を入力しない限り,マイクロプロセッサ240はステップS704に復帰して音響出力部130に放送信号が出力されるようにするだけでなく,DSP210を制御して音楽抽出部500により始めと終わりが認識され,抽出された音楽データが音楽データ格納部170の臨時格納領域に臨時格納されるようにする過程を続けて繰返す。
即ち,本発明の第2実施の形態によれば,デジタル再生装置200に周波数分析を用いた音楽抽出部500を備えることにより,受信する放送信号中から音楽部分のみを切離し,周波数分析を用いて該出力音楽の始めの部分と終わりの部分を認識して格納することができるようにする。従って,ユーザが音楽を聴取しかけて録音動作を行なう時に,音楽の始めの部分がある程度経過したとしても,該音楽の始めの部分から録音格納され,以後の録音格納された音楽を再生する場合,その音楽の始めの部分から再生することになる。
図8は,本発明の第3実施の形態に係る隠匿マールコーフモデル(HMM:Hidden Markov Model)を用いた音楽抽出部800の内部構成を示すブロック構成図である。
本発明の第3実施の形態では,音楽抽出部800に受信される放送信号中に多数個に混じった音源等の混合信号を入力として受取って,相互独立的な音源信号を復調するものであって,一般の人達の音声特徴が抽出できるデータを収集した後に隠匿マールコーフモデル(HMM)を用いて学習させて音声信号を抽出し除去するものである。換言すれば,混合している音響情報から隠匿されている音声情報を得ることができるようにするモデルが隠匿マールコーフモデルである。その際,隠匿された音声情報はマールコーフプロセス(Markov Process)である。そして,「モデルの状態は専ら以前の状態のみに依存する」という仮定をマールコーフ仮定(Markov Assumption)という。マールコーフプロセスは,状態間転移が専ら以前のn個の状態に依存してなされるプロセスを言う。その際,このモデルをn次元のモデルというが,nは次の状態を決定することに影響を及ぼす状態の個数を表す。
HMMは,音声の時間的変化をモデリングする遷移確率とスペクトル変化をモデリングする出力確率とからなる。また,入力パターンと参照パターンとの間の類似度を用いるよりは,与えられたモデルとの確率的な推定値を使用してモデルの類似度を計算するが,入力される音声データを前処理して当該入力に近似した出力を生成する隠匿状態集合の経路を探すためにビタービ(Viterbi)アルゴリズムを用いる。
確率推定問題の場合は隠匿状態(Hidden State)を考慮しなければならないので,確率を推定する問題が複雑になり,最適状態の順序の決定問題はデータを最もよく説明する状態順序を決定するために「最適」の基準を定めることが必要である。前記パラメータの推定問題の場合は学習と関係がある。従って,前記確率推定問題の場合は,前向アルゴリズム(Forward Algorithm)と後向アルゴリズム(Backward Algorithm)とを用いて解決可能であり,最適状態の順序の経路を決定する問題は,一般的に,動的プログラミング技法の1つであるビタービ(Viterbi)アルゴリズムを用いて決定する。そして,パラメータの推定はBW(Baum−Welch)アルゴリズムを使用して遂行する。
本発明の第3実施の形態に係るHMMを用いた音楽抽出部800は,HMMからパラメータの推定のためのBWアルゴリズムを用いて音響信号及びその音響信号の特徴を抽出し,ビタービアルゴリズムを用いて音楽信号のみを抽出するものである。
図8に示している本発明の第3実施の形態に係る音楽抽出部800は音響入力部810と,MLP(多層パーセプトロン:Multi−Layer Perceptron)820と,特徴抽出部(Feature Extractor)830と,HMM選り分け部(HMM Classifier)840とを含む。
音響入力部810は,DSP210で受信される放送信号中,多数の音響信号が含まれたオーディオ信号を入力し,オーディオ信号の音響特徴(Acoustic Feature)を抽出する。例えば,零点交差情報(Zero−Crossing Information),エネルギー(Energy),ピッチ(Pitch),スペクトル周波数(Spectral Frequencies)及びケプストラル係数(Cepstral Coefficient)等を抽出する。音響入力部810はオーディオ信号をフレーム(Frame)という時間単位で切離す。一つのフレームは略10ms〜30ms程度であり,各フレーム毎に特徴(Feature)値は異なり,時間順に並べられる。このようなフレームから抽出した特徴(Feature)は“Xn”と表示する。
MLP820は,第1実施の形態で説明した神経網音声認識で使用した理論を適用する。MLP820は,音響入力部810で入力されたXnが音声認識的にどの音素であるかの可能性(確率P)を表すポステリア確率(Posterior Probability)を求める。もし,現在入力されたオーディオ信号が音声(Speech)区間ならば,特定音素である確率は高く表れるはずである。MLP820の出力端にはXn当りP(q1|Xn)等の形態でk個だけ出力される。ここで,q1〜qkは音素の個数を表し,Xnは音響入力部810でフレームを分析して得られた音響特徴を表す。
特徴抽出部830は,MLP820で受信されたポステリア確率に基づいて演算を行なってフレーム中で確率値の分布を表す単位であるエントロピー(Entropy:Hn)とフレーム間の変化に対する確率値であるダイナミズム(Dynamism:Dn)とを求めてHMM選り分け部840に出力する。オーディオ信号が音声ならば,装置が理想的な場合,エントロピーは「0」に近いのであり,フレーム間の変化が大きいので,ダイナミズムは高く表れるはずである。逆に,非音声,例えば,音楽ならば確率値が広く分布して高いエントロピーを有することになり,時間当り変化量が小さいのでダイナミズムは低く表れるはずである。
次の数式1はエントロピー(Hn)を求める式を,数式2はダイナミズムDnを求める式を表す。
Figure 2005518560
Figure 2005518560
HMM選り分け部840は特徴抽出部830で受信されたエントロピー(Hn)とダイナミズム(Dn)とに基づいて,BWアルゴリズムとビタービアルゴリズムとを用いて音声クラス(Speech Class)と音楽クラス(Music Class)とを選り分ける。各クラスに存在する状態(State)は,全て同一であるが,複数個存在する。HMM選り分け部840はHMMを学習することになるが,これは受信された両特徴パラメータHn,DnをBWアルゴリズムを用いて各状態(State)から状態(State)に移転する遷移確率を最適化するというのである。学習を始める前の初期値は任意設定する。HMM選り分け部840は,実際に音声と音楽とを切離す時には,入力された特徴パラメータと学習されたHMMとを有してテーブルを作成する。そして,ビタービアルゴリズムを用いて最終的に入力オーディオ信号が属するクラスを計算して音声クラスであるか音楽クラスであるかを判断する。
ここで,HMM選り分け部840で用いるBWアルゴリズムとビタービアルゴリズムとについて,より詳細に説明する。
一旦,観測列に対して最大確率を有する適合するモデルを選択した後には観測列を生成するモデルの最適状態順序を決定しなければならない。一般的に,モデルの最適状態を決定するには,動的プログラミング(Dynamic Programming)方法中の一つであるビタービアルゴリズムを使用する。
1.ビタービアルゴリズム
ビタービアルゴリズムは,与えられた観測列οとモデルλとを有し,観測列οを最大確率で生成する状態順序(State Sequence)Qを決定することに使われる。観測列οとモデルλとに基づいて観測列を生成する確率はP(q1,q2,・・・qT|ο,λ)である。
図9は,最大確率を有する状態等の順序を決定するビタービアルゴリズムの原理を示す図面である。
即ち,図9は時間tから時間t+1への状態遷移等の中から最大確率で状態遷移を行なう状態等の順序を決定するステップを示すものである。ビタービアルゴリズムは次のような過程で最大確率を有する状態経路を計算する。
初期化(Initialization):
Figure 2005518560
回帰(Recursion):
Figure 2005518560
Figure 2005518560
終了(Termination):
Figure 2005518560
Figure 2005518560
状態順序帰路(State Sequence Backtrackig):
Figure 2005518560
前記アルゴリズムにおいて,Ψ(i)は,時間tから状態iに転移する最適経路を維持するパラメータである。
Ψ(i)は
Figure 2005518560
のように以前状態(t−1)までの最大確率を有する経路δt−1と時間tでの状態jへの転移行列を用いて最大確率を有する状態経路を計算する。
図9において,δ(j)は状態jで終わる経路等の中から最大確率を有する経路に対する確率値を表現しているものであって,次の数式3のように表現される。
Figure 2005518560
また,前記数式3は帰納によって次の数式4のように拡張されることができる。
Figure 2005518560
前記数式4を用いると,時間tだけでなく,以後のt+1に対しても最大確率を有する状態等の順序を求めることができる。
2.BWアルゴリズム
観測列に対し,最大確率を有する適合するモデルを選択し,該モデルの内部状態等の中から最適の状態順序を定めた後には,観察された観測列0に対し,P(ο|λ)を最大とするモデルλ=(π,A,B)のパラメータ(Parameter)を決定しなければならない。モデルのパラメータを決定する問題はモデルの複雑性のため,分析的(Analytic)な方法では困難である。このため,モデルパラメーターの学習にはBaum−Welchアルゴリズムを使用する。
BWアルゴリズムは“初期モデル”λを構成し,初期モデルと観察列οとを基にして“新しいモデル”λを構成する。このようにして新しく構成されたモデルと以前のモデルとが観察列を生成する確率の差が“特定値”以上となるまでモデルのパラメータを変更しながら新しいモデルを生成する。
また,BWアルゴリズムは次の数式5と数式6のような2つの新しいパラメータを定義して使用する。
Figure 2005518560
数式5は時間tで状態iにあり,時間t+1で状態jにある確率を表す。ここで,αは前向アルゴリズムの前向パラメータを,βは後向アルゴリズムの後向パラメータを表す。数式5を
Figure 2005518560
のようにすると,観察列οにおいて,状態iから状態jに転移した回数の期待値となる。
Figure 2005518560
数式6は,時間tから与えられた観察列を有して状態iにある確率を表す。ここで,数式6を用いると,
Figure 2005518560
のように合計を取って観察列οから状態iが訪問した回数に対する期待値を求めることができる。
上述した過程でHMM選り分け部840は,入力されたオーディオ信号中,音楽信号を選り分けてDSP210に出力することになる。
次に,上記のように構成された音楽抽出部800を用いて音楽信号のみを出力するデジタル再生装置の動作に対して図10に示している順序図を参照して詳細に説明する。図10は,本発明の第3実施の形態に係るデジタル再生装置において,HMMを用いて音楽部分を選り分けて格納する方法を示す順序図である。
先ず,放送信号がアンテナ110で受信されてチューナ120に受信されると,チューナ120では設定されたチャンネルで放送信号を音響出力部130に出力するだけでなく,DSP210を経由して音楽抽出部800に出力する(S1020)。音楽抽出部800に入力された放送信号は音響入力部810に受信され,音響入力部810はオーディオ信号をフレーム時間単位で切離して,音響特徴,例えば,零点交差情報(Zero−Crossing Information),エネルギー(Energy),ピッチ(Pitch),スペクトル周波数(Spectral Frequencies)及びケプストラル係数(Cepstral Coefficient)等を抽出してMLP820に送信する(S1040)。
MLP820では,音響入力部810で入力された音響特徴が音声認識的にどの音素であるかの可能性(確率P)を表すポステリア確率(Posterior Probability)を求めて特徴抽出部830に出力する(S1060)。特徴抽出部830は,MLP820で印加されたポステリア確率に基づいてエントロピーHnとダイナミズムDnとを求める(S1080)。特徴抽出部830は,求められたエントロピーHnとダイナミズムDnとをHMM選り分け部840に出力する。HMM選り分け部840では,特徴抽出部830で受信されたエントロピーHnとダイナミズムDnとに基づいて,BWアルゴリズムとビタービアルゴリズムとを用いて音楽データのみを選り分けてこれをDSP210に出力する(S1100)。
DSP210は,DSPコア212がエンコーダ214を用いてHMM選り分け部840で印加された音楽データをMP3ファイルの音楽データに符号化して音楽データ格納部170の音楽データ格納領域に臨時格納する(S1120)。その際,音響出力部130では現在受信格納された音楽信号が含まれた放送信号が出力されていることは自明である。現在ユーザが聴取している音楽が音楽データ格納部170の臨時格納領域に臨時格納される際,その音楽の始めの部分と終わりの部分を認識して格納することは,先に第2実施の形態における説明と同様に適用できる。これは,音楽抽出部220,500,800から抽出した音楽信号の始めの部分を選り分ける機能を備えなくてマイクロプロセッサ240を備えることにより具現することもできる。
音響出力部130に音楽信号が含まれた放送信号が出力されている際に,ユーザによりキー入力部230に備えられた録音キー234が入力された場合(S1140),マイクロプロセッサ240はこれを認識し,DSP210を制御して現在音楽データ格納部170の非音楽格納領域に格納されている終始データに基づいて,臨時格納領域に臨時格納されている前記音楽データの始めと終わりの部分を認識して,その音楽データを確定格納領域に移転して格納し,その格納状態を確定して維持する(S1160)。ここで,「確定し維持する」というのは,第2実施の形態における説明と同じ意味である。
録音キー234の入力のない場合,マイクロプロセッサ240は,ステップ(S1020)に戻り,音響出力部130に放送信号が出力され,現在出力される放送信号のうち,音楽信号のみが音楽データに格納されるようにする過程を繰返すことになる。以後,ユーザは音楽データ格納部170に格納されている音楽データ中から自分が聴取を希望する音楽を選択して再生することができる。
即ち,本発明の第3実施の形態によると,デジタル再生装置200にHMMを用いた音楽抽出部800を備えることにより,放送信号中,音声信号と音楽信号とを選り分けて音楽信号のみを音楽データに格納することができるデジタル再生装置及び方法が実現できることになる。
本発明は,前述した実施の形態に限るのではなく,本発明の技術的要旨を外れない範囲内で多様に修正及び変更実施できるということは,当該技術分野で通常の知識を有する者であれば誰でも理解することができる。
即ち,音声認識(Speech Recognition)技術に基づいた独立成分分析(ICA:Independent Component Analysis)を用いた音楽抽出部を構成することができる。一般に,「音声認識」とは,人間の音声を機械(コンピュータ)が分析し,これを認識または理解する技術であるが,発音によって口形状と舌の位置変化により特定の周波数を有する人間の音声を用いて,発声した音声を電気信号に変換した後,音声信号のいろいろな特性を抽出して人の発音を認識する技術である。従って,音声認識技術を適用した音楽抽出部を用いて放送信号に含まれた音声信号を切離して除去することにより,音楽信号のみを出力する機能を備えるようにすることができる。
また,上記実施の形態は,音楽データ格納部170に音楽データを臨時格納し,録音キー234の入力がある場合,該音楽データを確定して格納維持するようになっているが,音楽抽出部220から抽出した音楽データを一曲またはそれ以上,臨時格納することができる臨時メモリを備えて,現在の音響出力部130に出力され,かつ,内部的には音楽抽出部220により抽出される音楽データを前記臨時メモリに格納されるようにし,録音キー234の入力がある場合,前記臨時メモリに格納された音楽データを音楽データ格納部170に移転して格納するようにし,録音キー234の入力のない場合,臨時メモリに格納された音楽データを削除して次の音楽データを格納するように構成することができる。
従来のラジオ機能を備えたMP3プレーヤーの構成を示すブロック構成図である。 本発明の望ましい実施の形態によって音楽部分を選り分けて格納するデジタル再生装置の構成を示すブロック構成図である。 発明の第1実施の形態にかかる人工神経網からなる音楽抽出部の内部構成を示すブロック構成図である。 本発明の第1実施の形態にかかる人工神経網を用いて音楽部分を自動で選り分けて格納する方法を示すフローチャートである。 本発明の第2実施の形態にかかる周波数分析を用いた音楽抽出部の内部構成を示すブロック構成図である。 黙音(Mute)が含まれた音楽信号の構成を示す図面である。 本発明の第2実施の形態にかかる周波数分析を用いて音楽部分を自動で選り分けて格納する方法を示すフローチャートである。 本発明の第3実施の形態にかかるHMMを用いた音楽抽出部の内部構成を示すブロック構成図である。 最大確率を有する状態等の順序を決定するビタービアルゴリズムの原理を示す図面である。 本発明の第3実施の形態にかかるHMMを用いて音楽部分を自動で選り分けて格納する方法を示すフローチャートである。
符号の説明
100 MP3プレーヤー
110 アンテナ
120 チューナ
130 音響出力部
140 DSP
150 外部機器接続部
160 コントローラー
170 音楽データ格納部
180 表示部
190 キー操作部
200 デジタル再生装置
210 DSP
211 ADC
212 DSPコア
213 DAC
214 エンコーダ
215 DSPプログラム部
216 デコーダ
220 音楽抽出部
232 放送キー
234 録音キー
500 周波数分析利用音楽抽出部
510 音響データ演算部
520 非音楽除去部
530 音楽終始判断部
540 スペクトル分析部
800 HMM利用音楽抽出部
810 音響入力部
820 MLP(多層パーセプトロン)
830 特徴抽出部
840 HMM選り分け部

Claims (28)

  1. 放送信号を受信して選局するチューナと,選局された放送信号を可聴音で出力する音響出力部と,音楽データを臨時格納する臨時格納領域と,音楽データを確定して格納する確定格納領域とを備える音楽データ格納部と,装置の動作状態を表示する表示部とを含むデジタル録音再生装置であって,
    前記放送信号をデジタルデータに変換したりデジタルデータを,アナログ信号に変換したりし,デジタルデータを音楽データに圧縮して符号化したり,圧縮されたデジタルデータを復号化したりして出力する信号処理部と,
    前記信号処理部から出力された前記デジタルデータを,音楽抽出アルゴリズムにより音楽データと非音楽データとに切離して音楽データのみを抽出し,抽出した前記音楽データの始めと終わりを認識する終始データを生成して出力する音楽抽出部と,
    前記デジタル再生装置の動作モードをラジオ放送を受信するモードに切換える放送キーと,放送される音楽信号に対して録音格納を実行するようにする録音キーとが備えられたキー入力部と,
    前記信号処理部を制御して前記音楽抽出部により抽出された音楽データのみを前記音楽データ格納部の臨時格納領域に臨時格納し,前記録音キーの入力がある場合,前記臨時格納領域に臨時格納された前記音楽データを前記確定格納領域に移転して格納し,その格納状態を確定して維持するマイクロプロセッサとを含むことを特徴とするデジタル録音再生装置。
  2. 前記音楽抽出部は,人工神経網を用いて多数の入力データを演算して音楽データと非音楽データとに切離し,非音楽データは除去して音楽データのみを出力することを特徴とする,請求項1に記載のデジタル録音再生装置。
  3. 前記音楽データ格納部の確定格納領域に臨時格納される前記音楽データは,各曲毎に格納される順序によって順次に格納され,前記音楽データのみを続けて格納して,前記確定格納領域の格納容量を超える場合,マイクロプロセッサは前記音楽データ格納部に格納されていた以前の音楽データ中,先に記録された順に一曲ずつ削除した後,新しい音楽データを格納することを特徴とする請求項1に記載のデジタル録音再生装置。
  4. 前記キー入力部に音楽データを削除する削除キーを備え,前記マイクロプロセッサは前記音楽データ格納部に格納された音楽データのリストを前記表示部に出力し,ユーザが削除を希望するリストを選択するようにし,前記削除キー入力によって前記選択された音楽データを音楽データ格納部から削除することを特徴とする,請求項3に記載のデジタル録音再生装置。
  5. 前記信号処理部は,アナログ信号をデジタル信号に変換するADC(Analog to Digital Converter)と,
    DSP(Digital Signal Processor:デジタル信号処理プロセッサ)の全般的な動作を制御するDSPコア(Core)と,
    デジタルデータをアナログ信号に変換するDAC(Digital to Analog Converter)と,
    アナログ信号を音楽データに圧縮して符号化するエンコーダと,
    前記マイクロプロセッサの制御命令によって前記チューナで受信される放送信号をデジタルデータに変換したり符号化したりして圧縮し,圧縮されてエンコーディングされたデジタルデータを復号化して出力するプログラムが格納されたDSPプログラム部と,
    圧縮されたデジタルデータを復号化するデコーダとを含むことを特徴とする,請求項1に記載のデジタル録音再生装置。
  6. 前記音楽抽出部は,前記信号処理部で受信される放送データの左チャンネルデータと右チャンネルデータとを演算してその結果データを出力する音響データ演算部と,
    前記音響データ演算部で受信された結果データがゼロに近いデータならばモノデータと判断し,前記結果データが閾値以上,所定時間持続する場合,ステレオデータと判断して,前記モノデータは除去し,前記ステレオデータのみを出力する非音楽除去部と,
    前記非音楽除去部で受信された前記音楽データを前記信号処理部に出力しながら,前記音楽データの始めと終わりの部分を識別してこれを認識する終始データを生成して,前記マイクロプロセッサに伝送する音楽終始判断部と,
    前記音楽終始判断部で受信された音楽データをスペクトル分析して音楽の始めと終わりの信号を選り分けて,これを認識する終始データを生成するスペクトル分析部とを含むことを特徴とする,請求項1に記載のデジタル録音再生装置。
  7. 前記音楽終始判断部は,前記音楽データの終わり部のフェードアウトを検出して,これに基づいて音楽データの始めと終わりを識別することを特徴とする,請求項6に記載のデジタル録音再生装置。
  8. 前記音楽終始判断部は,前の音楽データと次の音楽データとの間に存在する黙音データに基づいて,黙音が表れる場合はその音楽データの終わりと認識し,黙音を過ぎて次の音楽データが続く場合はその部分を次の音楽データの始めと認識し,これを表す終始データを生成することを特徴とする,請求項6に記載のデジタル録音再生装置。
  9. 前記音楽終始判断部は,前記音楽データのエネルギー変化量を計算してエネルギーが低い区間を黙音区間と認識して音楽の終点の候補とみなし,その際,エネルギー値は前記非音楽除去部で受信される音楽データをフレーム単位にしてその位相値を自乗してログを取って取得し,
    音楽検出区間の長さを3〜5分として音楽区間を抽出することにより,前記音楽データの始めと終わりを判断することを特徴とする,請求項6に記載のデジタル録音再生装置。
  10. 前記音楽終始判断部は,前の音楽データと次の音楽データとの重なる部分が存在したり,両音楽データ間に黙音区間がに連続して,音楽データの始めと終わりの部分を識別できない場合には,前記スペクトル分析部に前記音楽データを送信することを特徴とする,請求項6に記載のデジタル録音再生装置。
  11. 前記音楽抽出部は,音声特徴等が抽出できるデータを収集した後に隠匿マールコーフモデル(HMM:Hidden Markov Model)を用いて学習させて,混合している音響情報から隠匿されている音声情報を抽出し除去することを特徴とする,請求項1に記載のデジタル録音再生装置。
  12. 前記音楽抽出部は,隠匿マールコーフモデルからパラメータの推定のためのBaum−Welch(BW)アルゴリズムを用いて音響信号及びその音響信号の特徴を抽出し,ビタービアルゴリズムを用いて音楽信号のみを抽出することを特徴とする請求項11に記載のデジタル録音再生装置。
  13. 前記音楽抽出部は,
    前記チューナで受信される放送信号中,多数の音響信号が含まれたオーディオ信号を入力してオーディオ信号の音響特徴を抽出する音響入力部と,
    前記音響入力部で入力された前記音響特徴が音声認識的にどの音素であるかの可能性(確率P)を表すポステリア確率を求める多層パーセプトロンと,
    前記多層パーセプトロンで受信されたポステリア確率に基づいて演算を行なって,フレーム内で確率値の分布を表す単位であるエントロピーHnとフレーム間の変化に対する確率値であるダイナミズムDnとを求める特徴抽出部と,
    前記特徴抽出部で受信されたエントロピーHnとダイナミズムDnとに基づいてBWアルゴリズムとビタービアルゴリズムとを用いて音声クラスと音楽クラスとを選り分けて音楽データのみを出力するHMM選り分け部とを含むことを特徴とする,請求項11に記載のデジタル録音再生装置。
  14. 前記音響特徴は,零点交差情報,エネルギー,ピッチ,スペクトル周波数及びケプストラル係数を表すことを特徴とする,請求項13に記載のデジタル録音再生装置。
  15. 前記音楽抽出部は,音声認識技術に基づいた独立成分分析(ICA:Independent Component Analysis)を用いて放送信号の中から音声信号を切離して除去することにより,音楽信号のみを出力することを特徴とする,請求項1に記載のデジタル録音再生装置。
  16. 放送信号を受信して選局するチューナと,選局された放送信号を可聴音で出力する音響出力部と,前記放送信号をデジタルデータに変換したりデジタルデータをアナログ信号に変換したりし,デジタルデータを音楽データに圧縮して符号化したり,圧縮されたデジタルデータを復号化したりして出力するDSP(Digital Signal Processor:デジタル信号処理プロセッサ)と,前記DSPで受信されたデジタルデータの中から音楽データのみを抽出する音楽抽出部と,音楽データを格納する音楽データ格納部と,装置の動作状態を表示する表示部と,ラジオ放送を受信するモードに切換えたり放送される音楽信号に対して録音格納を実行するようにする命令を入力するキー入力部とを備えるデジタル再生装置の音楽部分選り分け格納方法であって,
    (a)前記チューナで放送信号を音響出力部に出力すると共に,前記DSPに印加するステップと,
    (b)前記DSPで前記放送信号をデジタルデータに変換して前記音楽抽出部に出力するステップと,
    (c)前記音楽抽出部が音楽抽出アルゴリズムにより前記デジタルデータの中から音楽データのみを抽出するステップと,
    (d)抽出した前記音楽データの始めと終わりを認識して前記音楽データ格納部に臨時格納するステップと,
    (e)前記音響出力部に現在出力される音楽を格納する命令が前記キー入力部により入力されたのかを判断するステップと,
    (f)前記音楽データ格納部に臨時格納されている前記音楽データの格納状態を確定して維持するステップとを含むことを特徴とするデジタル再生装置の音楽部分選り分け格納方法。
  17. 前記ステップ(c)の前記音楽抽出アルゴリズムは,
    人工神経網を用いて多数の入力データを演算して音楽データと非音楽データとに切離し,非音楽データは除去し,音楽データのみを出力することを特徴とする,請求項16に記載のデジタル再生装置の音楽部分選り分け格納方法。
  18. 前記ステップ(c)の音楽抽出アルゴリズムは,
    音声特徴等を抽出することができるデータを収集した後に隠匿マールコーフモデル(HMM:Hidden Markov Model)を用いて学習させて混合している音響情報から隠匿されている音声情報を抽出して除去することを特徴とする,請求項16に記載のデジタル再生装置の音楽部分選り分け格納方法。
  19. 前記ステップ(c)の音楽抽出アルゴリズムは,
    音声認識技術に基づいた独立成分分析(ICA:Independent Component Analysis)を用いて放送信号の中から音声信号を切離して除去することにより,音楽信号のみを出力することを特徴とする,請求項16に記載のデジタル再生装置の音楽部分選り分け格納方法。
  20. 前記ステップ(d)において,前記音楽データ格納部に臨時格納される前記音楽データは,各曲毎に格納される順序によって順次に格納され,前記音楽データのみを続けて格納して前記音楽データ格納部の格納容量を超える場合,前記DSPが前記音楽データ格納部に格納されていた以前の音楽データのうち,確定されていない音楽データを先に記録された順に一曲ずつ削除した後,新しい音楽データを格納することを特徴とする請求項16に記載のデジタル再生装置の音楽部分選り分け格納方法。
  21. 前記ステップ(d)において,以前の音楽データと次の音楽データとの間に存在する黙音(Mute)データに基づいて,黙音が表れる場合はその音楽データの終わりと認識し,黙音を過ぎて次の音楽データが続く場合はその部分を次の音楽データの始めと認識することを特徴とする,請求項16に記載のデジタル再生装置の音楽部分選り分け格納方法。
  22. 前記ステップ(d)は,前記音楽データの終わり部に処理されているフェードアウトを検出して,これに基づいて始めと終わりを識別することを特徴とする,請求項16に記載のデジタル再生装置の音楽部分選り分け格納方法。
  23. 前記ステップ(d)は,前記音楽データのエネルギー変化量を計算してエネルギーが低い区間を黙音区間と認識して音楽の終点候補とみなし,その際,エネルギー値は前記非音楽除去部で受信される音楽データをフレーム単位としてその位相値を自乗してログを取って取得し,
    音楽検出区間の長さを3〜5分として音楽区間を抽出することにより, その音楽の始めと終わりを判断することを特徴とする,請求項16に記載のデジタル再生装置の音楽部分選り分け格納方法。
  24. 放送信号を受信して選局するチューナと,前記放送信号をデジタルデータに変換して音楽データに圧縮して符号化する信号処理部と,前記放送信号から音楽抽出アルゴリズムによって音楽部分のみを抽出する音楽抽出部と,抽出した前記音楽部分を格納するメモリとを備えるデジタル再生装置の音楽部分選り分け方法であって,
    (a)前記チューナから出力された前記放送信号を前記音楽抽出部に送信するステップと,
    (b)前記音楽抽出部が音楽抽出アルゴリズムによって前記放送信号の中から音楽部分の始めを認識するステップと,
    (c)認識した前記音楽データを前記メモリの臨時格納領域に臨時格納するステップと,
    (d)前記音楽データを格納する間に,録音格納に関する命令があるかを判断するステップと,
    (e)録音格納に関する命令があれば,臨時格納されている前記音楽データを前記メモリの確定格納領域に移転して格納し,その格納状態を確定して維持するステップとを含むことを特徴とするデジタル再生装置の音楽部分選り分け方法。
  25. 前記ステップ(b)の音楽抽出アルゴリズムは,音声特徴等が抽出できるデータを収集した後に,隠匿マールコーフモデル(HMM:Hidden Markov Model)を用いて学習させて混合している音響情報から隠匿されている音声情報を抽出して除去し,音楽データのみを抽出することを特徴とする,請求項24に記載のデジタル再生装置の音楽部分選り分け方法。
  26. 前記ステップ(b)の音楽抽出アルゴリズムは,人工神経網を用いて多数の入力データを演算して音楽データと非音楽データとに切離し,非音楽データは除去し,音楽データのみを出力することを特徴とする,請求項24に記載のデジタル再生装置の音楽部分選り分け方法。
  27. 前記ステップ(b)の音楽抽出アルゴリズムは,音声認識技術に基づいた独立成分分析(ICA:Independent Component Analysis)を用いて放送データの中から音声データを切離して除去することにより,音楽データのみを出力することを特徴とする請求項24記載のデジタル再生装置の音楽部分選り分け方法。
  28. 前記ステップ(e)において,録音格納に関する命令がなければ,前記ステップ(b)に復帰して次の音楽部分に対して認識することを特徴とする,請求項24に記載のデジタル再生装置の音楽部分選り分け方法。
JP2003570347A 2002-02-20 2003-01-30 音楽部分を自動で選り分けて格納するデジタル再生装置及びその方法 Pending JP2005518560A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2002-0009044A KR100472904B1 (ko) 2002-02-20 2002-02-20 음악 부분을 자동으로 선별해 저장하는 디지털 음악 재생장치 및 그 방법
PCT/KR2003/000214 WO2003071537A1 (en) 2002-02-20 2003-01-30 Digital recorder for selectively storing only a music section out of radio broadcasting contents and method thereof

Publications (1)

Publication Number Publication Date
JP2005518560A true JP2005518560A (ja) 2005-06-23

Family

ID=27751902

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003570347A Pending JP2005518560A (ja) 2002-02-20 2003-01-30 音楽部分を自動で選り分けて格納するデジタル再生装置及びその方法

Country Status (7)

Country Link
US (1) US20050169114A1 (ja)
EP (1) EP1476866A4 (ja)
JP (1) JP2005518560A (ja)
KR (1) KR100472904B1 (ja)
CN (1) CN1633690A (ja)
AU (1) AU2003207069A1 (ja)
WO (1) WO2003071537A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007256487A (ja) * 2006-03-22 2007-10-04 Sanyo Electric Co Ltd 音楽信号蓄積装置および音楽信号蓄積プログラム
JP2008026662A (ja) * 2006-07-21 2008-02-07 Sony Corp データ記録装置、データ記録方法及びデータ記録プログラム
JP2009259330A (ja) * 2008-04-16 2009-11-05 Sanyo Electric Co Ltd 音楽記録再生装置およびナビゲーション機能を有する音楽記録再生装置
JP2010266865A (ja) * 2009-05-13 2010-11-25 Sony Computer Entertainment America Llc オーディオストリームのセグメントの整合性保護
US8966557B2 (en) 2001-01-22 2015-02-24 Sony Computer Entertainment Inc. Delivery of digital content
US9483405B2 (en) 2007-09-20 2016-11-01 Sony Interactive Entertainment Inc. Simplified run-time program translation for emulating complex processor pipelines

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002089414A1 (fr) * 2001-04-25 2002-11-07 Sony Corporation Procede de transmission de donnees et dispositif de transmission de donnees en continu
US8644969B2 (en) * 2003-01-02 2014-02-04 Catch Media, Inc. Content provisioning and revenue disbursement
US8666524B2 (en) * 2003-01-02 2014-03-04 Catch Media, Inc. Portable music player and transmitter
US8918195B2 (en) 2003-01-02 2014-12-23 Catch Media, Inc. Media management and tracking
TW587810U (en) * 2003-05-02 2004-05-11 Compal Electronics Inc Digital recorder
JP2005141601A (ja) * 2003-11-10 2005-06-02 Nec Corp モデル選択計算装置,動的モデル選択装置,動的モデル選択方法およびプログラム
US20050172006A1 (en) * 2004-02-02 2005-08-04 Hsiang Yueh W. Device for data transfer between information appliance and MP3 playing unit
US20050266834A1 (en) * 2004-05-14 2005-12-01 Ryan Steelberg System and method for broadcast play verification
US20050265396A1 (en) * 2004-05-14 2005-12-01 Ryan Steelberg System for broadcast play verification and method for same
US7672337B2 (en) * 2004-05-14 2010-03-02 Google Inc. System and method for providing a digital watermark
KR100576842B1 (ko) * 2004-07-05 2006-05-10 주식회사 넷앤티비 디지털 오디오 신호의 구간 재생 장치
JP2006067266A (ja) * 2004-08-27 2006-03-09 Sony Corp 無線通信システム、無線通信装置及び無線通信方法
KR100721973B1 (ko) * 2005-03-24 2007-05-25 김재천 분류알고리즘을 이용한 음악장르 분류 방법
GB2430073A (en) * 2005-09-08 2007-03-14 Univ East Anglia Analysis and transcription of music
KR100678917B1 (ko) * 2005-10-27 2007-02-05 삼성전자주식회사 수신한 방송의 음원 데이터를 휴대폰의 기능음으로설정하는 방법 및 장치
JP4321518B2 (ja) 2005-12-27 2009-08-26 三菱電機株式会社 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
KR100705240B1 (ko) * 2006-05-04 2007-04-09 주식회사 대우일렉트로닉스 광 기록재생 장치에서의 음악앨범 생성장치 및 생성방법
JP4442585B2 (ja) * 2006-05-11 2010-03-31 三菱電機株式会社 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
US8468561B2 (en) 2006-08-09 2013-06-18 Google Inc. Preemptible station inventory
JP2008076776A (ja) * 2006-09-21 2008-04-03 Sony Corp データ記録装置、データ記録方法及びデータ記録プログラム
JP2008241850A (ja) * 2007-03-26 2008-10-09 Sanyo Electric Co Ltd 録音または再生装置
JP4539750B2 (ja) * 2008-04-08 2010-09-08 ソニー株式会社 記録媒体
US8457771B2 (en) * 2009-12-10 2013-06-04 At&T Intellectual Property I, L.P. Automated detection and filtering of audio advertisements
KR101708305B1 (ko) * 2010-08-31 2017-02-20 엘지전자 주식회사 신호 처리 장치 및 그 방법
US8909217B2 (en) 2011-04-15 2014-12-09 Myine Electronics, Inc. Wireless internet radio system and method for a vehicle
US20130325853A1 (en) * 2012-05-29 2013-12-05 Jeffery David Frazier Digital media players comprising a music-speech discrimination function
JP6980177B2 (ja) * 2018-01-09 2021-12-15 トヨタ自動車株式会社 オーディオ装置
CN108831437B (zh) * 2018-06-15 2020-09-01 百度在线网络技术(北京)有限公司 一种歌声生成方法、装置、终端和存储介质
CN109166593B (zh) * 2018-08-17 2021-03-16 腾讯音乐娱乐科技(深圳)有限公司 音频数据处理方法、装置及存储介质
KR102372580B1 (ko) * 2020-05-19 2022-03-10 주식회사 코클 비디오 컨텐츠로부터 음악 데이터를 검출하는 장치 및 그의 제어방법

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2837576A1 (de) * 1978-08-29 1980-03-13 Siegfried Markus Verfahren und vorrichtung zur nahtlosen tonbandaufnahme von musik
US4752834A (en) * 1981-08-31 1988-06-21 Shelton Video Editors Inc. Reciprocating recording method and apparatus for controlling a video recorder so as to edit commercial messages from a recorded television signal
US5126982A (en) * 1990-09-10 1992-06-30 Aaron Yifrach Radio receiver and buffer system therefore
US5416836A (en) * 1993-12-17 1995-05-16 At&T Corp. Disconnect signalling detection arrangement
JPH1051337A (ja) * 1996-07-29 1998-02-20 Yukio Hiromoto Fm文字多重放送録音制御プログラム装置
JP2000149434A (ja) * 1998-11-12 2000-05-30 Sony Corp データ内容情報の記録制御装置及びその方法
KR100605187B1 (ko) * 1999-04-21 2006-07-28 엘지전자 주식회사 디지털 데이터스트림의 선택적 기록방법
US6163508A (en) * 1999-05-13 2000-12-19 Ericsson Inc. Recording method having temporary buffering
KR100348901B1 (ko) * 1999-06-28 2002-08-14 한국전자통신연구원 오디오/영상물의 음향적 장면분할방법
WO2001063807A1 (en) * 2000-02-22 2001-08-30 Portalplayer, Inc. Real-time wireless recording and compression system and method
JP2001333370A (ja) * 2000-05-23 2001-11-30 Canon Inc 画像音処理装置
KR20020014875A (ko) * 2000-08-19 2002-02-27 윤종용 엠피쓰리 플레이어 기능을 내장한 디지털 방송수신기
JP2002162973A (ja) * 2000-11-24 2002-06-07 Univ Waseda 放送された音楽の検索方法
KR20020054622A (ko) * 2000-12-28 2002-07-08 엘지전자 주식회사 선택적 오디오 채널 선택 장치
US7254454B2 (en) * 2001-01-24 2007-08-07 Intel Corporation Future capture of block matching clip

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8966557B2 (en) 2001-01-22 2015-02-24 Sony Computer Entertainment Inc. Delivery of digital content
JP2007256487A (ja) * 2006-03-22 2007-10-04 Sanyo Electric Co Ltd 音楽信号蓄積装置および音楽信号蓄積プログラム
JP2008026662A (ja) * 2006-07-21 2008-02-07 Sony Corp データ記録装置、データ記録方法及びデータ記録プログラム
US9483405B2 (en) 2007-09-20 2016-11-01 Sony Interactive Entertainment Inc. Simplified run-time program translation for emulating complex processor pipelines
JP2009259330A (ja) * 2008-04-16 2009-11-05 Sanyo Electric Co Ltd 音楽記録再生装置およびナビゲーション機能を有する音楽記録再生装置
JP2010266865A (ja) * 2009-05-13 2010-11-25 Sony Computer Entertainment America Llc オーディオストリームのセグメントの整合性保護

Also Published As

Publication number Publication date
WO2003071537A1 (en) 2003-08-28
KR100472904B1 (ko) 2005-03-08
EP1476866A4 (en) 2005-06-22
CN1633690A (zh) 2005-06-29
AU2003207069A1 (en) 2003-09-09
US20050169114A1 (en) 2005-08-04
EP1476866A1 (en) 2004-11-17
KR20030069419A (ko) 2003-08-27

Similar Documents

Publication Publication Date Title
JP2005518560A (ja) 音楽部分を自動で選り分けて格納するデジタル再生装置及びその方法
US8165306B2 (en) Information retrieving method, information retrieving device, information storing method and information storage device
JP4491700B2 (ja) 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置
WO2005060337A2 (en) Automatic extraction of musical portions of an audio stream
JP2008076776A (ja) データ記録装置、データ記録方法及びデータ記録プログラム
JP2006202127A (ja) 推奨情報提示装置及び推奨情報提示方法等
JP5377974B2 (ja) 信号処理装置
JP4330174B2 (ja) 情報選択方法及び情報選択装置等
JP3607450B2 (ja) オーディオ情報分類装置
US7043440B2 (en) Play back apparatus
JP4990375B2 (ja) 記録再生装置
KR102431737B1 (ko) 멀티미디어 데이터에서 하이라이트를 찾는 방법 및 그를 이용한 장치
JP4475597B2 (ja) 提示データ選択装置及び提示データ選択方法等
JP2009284212A (ja) デジタル音声信号解析方法、その装置、及び映像音声記録装置
JP3925466B2 (ja) ストリームデータ編集方法及びその装置
JPH08146985A (ja) 話速制御システム
JP2002116784A (ja) 情報信号処理装置、情報信号処理方法、情報信号記録再生装置及び情報信号記録媒体
JP2003259311A (ja) 映像再生方法、映像再生装置、映像再生プログラム
JP2008026662A (ja) データ記録装置、データ記録方法及びデータ記録プログラム
JP2008079047A (ja) データ再生装置、データ再生方法及びデータ再生プログラム
JP2002297200A (ja) 話速変換装置
KR101744912B1 (ko) 라디오 녹음 모듈 및 방법
JPH0990994A (ja) 音声起動録音装置
KR20050100820A (ko) 캐릭터 완구용 음성변조시스템 및 그 방법
JP2006106103A (ja) 楽曲編集・再生装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090310

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090804