JP2007180669A - 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置 - Google Patents

楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置 Download PDF

Info

Publication number
JP2007180669A
JP2007180669A JP2005374205A JP2005374205A JP2007180669A JP 2007180669 A JP2007180669 A JP 2007180669A JP 2005374205 A JP2005374205 A JP 2005374205A JP 2005374205 A JP2005374205 A JP 2005374205A JP 2007180669 A JP2007180669 A JP 2007180669A
Authority
JP
Japan
Prior art keywords
music
section
candidate
detection
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005374205A
Other languages
English (en)
Other versions
JP2007180669A5 (ja
JP4321518B2 (ja
Inventor
Isao Otsuka
功 大塚
Hidetsugu Suginohara
英嗣 杉之原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2005374205A priority Critical patent/JP4321518B2/ja
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to US12/087,248 priority patent/US8855796B2/en
Priority to PCT/JP2006/325720 priority patent/WO2007074755A1/ja
Priority to EP06835167A priority patent/EP1968043B1/en
Priority to KR1020087011761A priority patent/KR100962803B1/ko
Priority to CN2006800430357A priority patent/CN101310327B/zh
Publication of JP2007180669A publication Critical patent/JP2007180669A/ja
Publication of JP2007180669A5 publication Critical patent/JP2007180669A5/ja
Priority to HK08113942.4A priority patent/HK1122893A1/xx
Application granted granted Critical
Publication of JP4321518B2 publication Critical patent/JP4321518B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/781Television signal recording using magnetic recording on disks or drums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/84Television signal recording using optical recording
    • H04N5/85Television signal recording using optical recording on discs or drums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/806Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
    • H04N9/8063Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal using time division multiplex of the PCM audio and PCM video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Television Signal Processing For Recording (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

【課題】 本発明は、テレビジョン放送から楽曲シーンを効率よく検出する方法を提供するものである。
【解決手段】 本発明に係る楽曲区間検出方法は、音声信号と映像信号とを含むデータを入力するデータ入力ステップと、各々異なる基準に基づいて、前記音声信号から楽曲候補区間を検出する複数の楽曲候補区間検出ステップと、前記検出された複数の楽曲候補区間に基づいて、楽曲区間を検出する楽曲区間検出ステップとを備える。これにより、ロックや演歌、クラシックなど、曲調の異なる広い楽曲に対して高い検出精度を確保することができる。
【選択図】 図1

Description

この発明は、テレビジョン放送等のデータから楽曲区間を検出する方法、及び装置、並びに、この方法により検出された楽曲区間を含むデータを、DVD−RやDVD−RWなどを含む記録型DVDディスク、ハードディスクドライブ、またはBlu−ray Discなどの記録媒体に記録する記録方法、及び装置に関するものである。
テレビジョン放送の一つに、所謂「歌番組」や「音楽番組」と呼ばれるジャンルが存在する。音楽番組は出演者による演奏や歌唱、あるいはビデオ映像による楽曲の映像(以下、「楽曲シーン」と記す。なお、この明細書において、「楽曲シーン」とは歌や演奏などの音楽が音声に含まれる映像を全般に指す。)と、司会者などによる楽曲の紹介や出演者とのトーク(会話)ショーなどの楽曲以外の映像(以下、「非楽曲シーン」と記す。)とから構成される場合が多い。
また民法放送であれば、番組の広告主の宣伝や、放送局自らの広告宣伝のためのコマーシャルメッセージ放送(以下、「CM放送」と記す。また、CM放送の区間を「CM放送区間」と記す。)が番組の構成に含まれる場合もある。
ところで、録画した音楽番組を再生する場合、楽曲に集中したい視聴者にとっては非楽曲シーンやCM放送などの楽曲シーン以外を効率よく見飛ばしたい要望がある。また逆に、楽曲には興味が無い視聴者には、楽曲シーンやCM放送を見飛ばしてトークショーなどの非楽曲シーンのみを視聴したいとする要望もある。
このような要望に対し、従来の楽曲検出方法及び記録方法では、音情報の周波数スペクトルのピークが周波数方向に対して時間的に安定している特徴を用いて楽曲シーンを特定し、楽曲の映像音声のみを蓄積している(例えば、特許文献1参照)。
特開平11−266435号公報(第5頁、第1図)
しかし、特許文献1に記載されているような楽曲検出方法では、楽曲シーンの検出を単一の手法により判定していたために、ロックや演歌、クラシックなど、曲調の異なる全ての楽曲に対して一様に検出精度を確保することは困難であった。
この発明は、上述のような課題を解消するためになされたもので、テレビジョン放送等の映像信号及び音声信号を含むデータから楽曲シーンを効率よく検出する方法、及び装置を提供するものである。
本発明に係わる楽曲区間検出方法は、
音声信号と映像信号とを含むデータを入力するデータ入力ステップと、
各々異なる基準に基づいて、前記音声信号から、前記入力データの楽曲候補区間を検出する複数の楽曲候補区間検出ステップと、
前記検出された複数の楽曲候補区間に基づいて、楽曲区間を検出する楽曲区間検出ステップと
を備えることとしたものである。
本発明の楽曲区間検出方法によれば、音声信号に対して各々異なる複数の基準に基づいて楽曲候補区間検出し、さらにこの検出された複数の楽曲候補区間から楽曲区間を検出するので、ロックや演歌、クラシックなど、曲調の異なる広い楽曲に対して高い検出精度を確保することができる。
実施の形態1.
以下、図を用いて本実施の形態1に係る楽曲検出方法、及び検出装置、並びに記録方法、及び記録装置を説明する。本実施の形態1に係る楽曲検出方法は、音声信号に対して各々異なる複数の基準に基づいて楽曲候補区間検出し、さらにこの検出された複数の楽曲候補区間から楽曲区間を検出することに特徴がある。
なお、この明細書において、楽曲シーンを記録した時、記録開始を基点として楽曲シーンの開始時刻となる時間位置情報と、楽曲シーンの終了時刻となる時間位置情報とにより特定される区間を「楽曲区間」とする。
ここで、蓄積メディアに記録した映像音声を再生制御する方法について説明する。一般に、上記のような再生制御を行う場合には、時間位置情報を90kHzでカウントするプレゼンテーションタイム(PTM)が広く使われている。つまり、楽曲区間を特定するために、開始時刻と終了時刻のPTMを時間位置情報として参照する方法である。しかし、この以外にも、映像音声を録画時間軸にて1秒間などの固定時間で離散化した時に楽曲シーンである区間はHigh(1)、非楽曲シーンである区間はLow(0)とするなどの二値化してHighとなる区間を検索するなどの方法がある。この明細書において、これらの楽曲区間の開始点と終了点を特定するための情報を「楽曲情報」と呼ぶ。
図1は、本実施の形態1の映像音声記録装置を示すシステムブロック図である。また、図2は、本実施の形態1の楽曲区間の検出、記録方法を示すフローチャートである。まず、図1及び図2を用いて本実施の形態1の映像音声記録装置について概説する。映像音声記録装置100には、記録を行う対象となるテレビジョン放送などの映像信号3と音声信号4が入力される(ST1)。次に、映像信号3は、ビデオエンコーダ5においてMPEG−2方式などにより符号化圧縮されて、映像データとなる。
一方、音声信号4がアナログ信号である場合には、アナログデジタル変換機(A/Dコンバータ)6によって音声波形を一定時間おきにサンプリングして振幅をデータ化したPCM(Pulse Code Modulation)方式などによりデジタル信号に変換される(ST2)。その後、オーディオエンコーダ7においてドルビーAC−3方式などによって符号化圧縮されて、音声データとなる。
マルチプレクサ8では、映像データと音声データとを多重化してマルチメディアデータを生成する。その後、書き込みバッファ9でマルチメディアデータを逐次取り込んだ後に書き込みドライブ2に送出し、DVD−RやDVD−RWディスクあるいは記録型Blu−ray Discなどのリムーバブルな蓄積メディア1に記録(一連の処理は「録画」とも言われる。)が行われる。映像音声記録装置100および書き込みドライブ2の動作は、マイクロプロセッサなどから構成する記録制御部16によって統括的に管理して制御されている。なお蓄積メディア1と書き込みドライブ2は、ハードディスクドライブ(HDD)などのリムーバブルではない蓄積メディアに置き換わっても構わない。
次に、本実施の形態1の映像音声記録装置の特徴的な構成要素である複数の楽曲候補検出部について説明する。第一の楽曲候補検出部10では、A/Dコンバータ6から出力されるPCM方式のデジタル信号を分析して楽曲候補区間を検出する(ST3、4)。第一の楽曲候補検出部10で検出された楽曲候補区間は、必要に応じて、第一の補正部12によって検出誤差が補正される(ST6)。また、第一の楽曲候補検出部10とは異なる基準を持つ第二の楽曲候補検出部11でも、第一の楽曲候補検出部10と同様に、楽曲候補区間が検出されて(ST3、5)、第二の補正部13にて必要に応じて検出誤差が補正される(ST6)。
第一の楽曲候補検出部10と第一の補正部12により検出・補正された楽曲候補区間と、第二の楽曲候補検出部11と第二の補正部13により検出・補正された楽曲候補区間は楽曲検出部14において統合あるいは取捨選択の判断が行われ、楽曲区間が検出される(ST7)。検出された楽曲区間は、メタデータ生成部15にてメタデータファイルに生成されて、書込みバッファメモリ9を介して蓄積メディア1に記録される(ST8)。なお、メタデータ生成部15は、逐次算出されて決定する楽曲区間の楽曲情報を保持するメモリ機能を有している。
なお、映像音声記録装置100の記録部の概念としては、書き込みドライブ2のみを含めてもよいし、マルチプレクサ8、メタデータ生成部15、書き込みバッファ9、記録制御部16を含めてもよい。
また、ここでは楽曲候補区間を検出する楽曲候補検出部10、11が2つの場合について記載したが、さらに多くの楽曲候補検出部を有する構成であっても良い。また、補正部12、13は、楽曲候補検出部10、11の各々に対して個別に補正を行った後に、楽曲検出部14に補正後の楽曲候補区間を出力する構成について記載したが、個別の補正は行わずに、一つの補正部により補正された後、楽曲検出部14に補正後の楽曲候補区間を出力する構成としてもよい。また、楽曲検出部14にて検出した後の楽曲区間に対して補正を行う構成としてもよい。
図3は、本実施の形態1の第一の楽曲候補検出部10を詳細に記した機能ブロック図である。第一の楽曲候補検出部10は、直交変換処理部20と尤度比較処理部21、および参照のためのデータテーブルであるモデルデータ22から構成される。図に示すように、A/Dコンバータ6で変換されたデジタル信号の直交変換係数が直交変換処理部20で算出され、さらに尤度比較処理部21がモデルデータ22を参照してラベルが割り当てられた後、第一の補正部12に出力される。
さらに、第一の楽曲候補検出部10による楽曲候補区間の検出の詳細について述べる。音声信号4がステレオ信号である場合、A/Dコンバータ6では右チャンネルと左チャンネルのPCMデータが個々に得られる。このステレオ信号は、民生用レコーダ機器であれば、サンプリング周波数は48kHz、量子化ビット数は16bitなどの品質が使われる。
次に、直交変換処理部20では、時間領域のPCMデータを周波数領域に直交変換を施す(ST3)。直交変換には、PCMデータを時間的に50%重複するMDCT(変形離散コサイン変換)を使用する例について述べる。50%のオーバーラップを行うため、512個のPCMデータをサンプリングすると、256個の直交変換係数(MDCT係数)が右チャンネルと左チャンネルの各々について得られる。ステレオ信号の片チャンネル(例えば左チャンネル)、あるいはモノラル信号の1チャンネルに対する直交変換係数から、256次元の係数ベクトルが得られる。係数ベクトルは計算量の軽減を目的に、射影変換により次元数の低減を図っても良い。
なお、入力された音声信号を分析するに先立ち、あらかじめ主観評価で顕著に楽曲シーンと判断される音声の係数ベクトルを収集してトレーニングデータとして、係数ベクトルの分布傾向を、混合ガウス分布モデル(GMM法)を使用してモデル化しておく。楽曲シーンから作成したものを「音楽クラスモデル」と呼ぶ。この他、顕著な観客の歓声や声援、拍手、笑い声、出演者のトークシーン、などの非楽曲シーンについても同様にトレーニングデータを収集して混合ガウス分布モデルを作成して、複数の音声クラスモデルを用意する。
モデルデータ22は、これらの音声クラスモデルが参照できるデータテーブルとなる。尤度比較処理部21では、モデルデータ22を参照して、記録を行っている音声信号の直交変換係数ベクトルがベクトル空間として最も尤度の高い音声クラスを探して、その音声のクラスを当該区間のラベルとして割り当てる(ST4)。
すなわち、音楽クラスモデルの周波数特性と尤度の高い音声入力があった場合に楽曲を示すラベルが割り当てられ、その区間が楽曲シーンであるとの検出が可能になる。なお、あらかじめ用意したモデルを参照して入力信号の音声クラスを特定する手法であれば混合ガウス分布モデルによる尤度比較でなくても良く、隠れマルコフ法(HMM法)などの統計的な手法を使用しても構わない。
混合ガウス分布モデルによる尤度比較によって楽曲を示すラベルを割り当てる手法は、ステレオ放送やモノラル放送などのチャンネル数に影響を受けずに高い確度で楽曲シーンのみを検出できるという長所がある。その一方、楽曲シーンと非楽曲シーンとの境界を検出する精度は若干曖昧になる短所もある。またトレーニングデータの収集方法によっては、ロックや演歌、クラシックなど、曲調や楽器構成による得手、不得手が生じる場合がある。
次に、第二の楽曲候補検出部11について説明する。図4は、本実施の形態1の第二の楽曲候補検出部11を詳細に記した機能ブロック図である。第二の楽曲候補検出部11は、直交変換処理部20と差分演算処理部30から構成される。図に示すように、A/Dコンバータ6で変換されたデジタル信号の直交変換係数が直交変換処理部20で算出され、さらに差分演算処理部30で直交変換係数の差異量が算出された後、第二の補正部13に出力される。
さらに、第ニの楽曲候補検出部11による楽曲候補区間の検出の詳細について述べる。音声信号4から直交変換処理部20を経て256個の直交変換係数(MDCT係数)が得られるまでの過程(ST3)は第一の検出部10で述べたものと共通であり、ここでは省略する。
直交変換係数を(1×256)行列として、n行目の右チャンネルの直交変換係数をMr(n)、左チャンネルの直行変換係数をMl(n)とすると、差分演算処理部30では両チャンネルの直交変換係数行列の差を算出して、係数の二乗和である差異量Dを次式で得る。
Figure 2007180669
この処理を継続的に行うことにより、記録を行う番組の差異量Dの変化を把握することが出来る(ST5)。なお、差異量Dは直交係数行列の差による係数の二乗和としたが、右チャンネルと左チャンネルの差異が数値化される手法であれば、他の算出式を使用しても構わない。
ここで、差異量は、右チャンネルと左チャンネルの違いを表すものであり、音の広がり感、ステレオ感、などとも言い表せる。一般的に、楽曲シーンでは音の広がり感が大きく、出演者によるトークシーンなどの非楽曲シーンでは音の広がり感が小さいことが分かっている。すなわち、差異量が所定の値(閾値)を超える区間が楽曲シーンであるとの検出が可能になる。
一般的に、楽曲シーンと非楽曲シーンとの境界では差異量が大きく変動することから、左右チャンネルの直交係数行列の差異量を検出する手法は、楽曲区間の開始時刻および終了時刻が高い精度で検出できるという長所がある。その一方、コンサートやライブ会場など常に音の広がり感が高い番組では非楽曲シーンでも高い差異量を検出したり、またモノラル放送では差異量が検出できない等の短所もある。またロックや演歌、クラシックなど、曲調や楽器構成などによる得手、不得手が生じる場合がある。
図5は、本実施の形態1の補正処理(図2では、ST6の「フィルター」に相当)の過程を示すチャート図である。同図において、(1)は第二の楽曲候補検出部11で算出された差異量42をプロットしたグラフ400であり、横軸は記録した番組の時間経過40、縦軸41は差異量である。
第二の補正部13では、差異量42を所定の閾値43で二値化して、閾値43を超える区間に楽曲を示すラベル付けを行い、閾値43を下回る区間は非楽曲を示すラベル付けを行う。同図において、(2)は二値化したラベル45をプロットしたグラフ402で、楽曲を示すラベルが付いた区間をHigh、非楽曲シーンを示すラベルが付いた区間をLowとしてラベル軸44で表している。さらに、同図(3)はラベル45に対して補正の処理を行うことで得られる補正後のラベル47をプロットしたグラフ407である。
ここで、図5を用いて、第二の楽曲候補検出部11で算出された差異量に対する第二の補正部13による補正処理の詳細について説明する。一例である差異量42を閾値43で二値化すると、ラベル45のように3つの楽曲候補区間46a、46b、46cが検出される。
そして、次に、二値化により得たラベル45に対して、次の3通りの補正処理を必要に応じて行う。
(a)楽曲候補区間が所定時間T1(例えば5秒)以下であれば、楽曲にラベル付けされた区間は、非楽曲(Low)にラベルを変更する。
(b)連続する楽曲候補区間の間隔が所定時間T2(例えば5秒)以内であれば、非楽曲にラベル付けされた間隔は、楽曲(High)にラベルを変更する。
(c)上記の(a)、(b)のラベル変更を行った後、楽曲にラベル付けされた区間が所定時間T3(例えば60秒)を超える区間を補正後の楽曲候補区間とする。なお、(a)と(b)はどちらか一方であっても良い。
図5(2)を用いて説明すると、楽曲候補区間46cは間隔Aは、所定時間T1を満たないために、補正処理(a)によって非楽曲区間となり、楽曲候補区間46aと46bとの間隔Bは、所定時間T2よりも短いために、補正処理(b)によってひとつの楽曲候補区間となる。その結果、得られる楽曲候補区間の間隔Cは所定時間T3を越えるので、この補正処理によって楽曲区間48が得られることになる。
また、第一の楽曲候補検出部10で算出したラベルに対する第一の補正部12による補正処理について、同じく図5を用いて説明する。第一の楽曲候補検出部10では楽曲を示すラベルと非楽曲を示すラベルが、もとより二値で算出されているので、そのまま図5(2)のラベル45のプロットとなる。一例として示したラベル45では、3つの楽曲候補区間46a、46b、46cが検出されたことになり、これに対して第二の補正部13と同様に、補正処理(a)、(b)、(c)を必要に応じて施すことで、楽曲候補区間48が得られることになる。
このように、それぞれの補正部において補正処理を施すことにより、出演者によるトークショーでの効果音などの非楽曲シーンにて、瞬間的に楽曲シーンと誤検出されてしまった区間や、あるいは演奏途中の演出としての全休止など楽曲シーンであるにも関わらず部分的に非楽曲シーンと誤検出されてしまった区間などを補正することが可能となる。また、一般的に、楽曲の1コーラスに相当する60秒などの所定時間を越えて楽曲が検出される区間を楽曲候補区間とすることで、トークショーでの短時間のBGMや宣伝用に楽曲のサビ部分のビデオクリップ紹介、あるいは番組のオープニングやエンディングテーマのような、楽曲シーンとして扱うには適切ではないシーンを除外することもできる。
次に、図1の楽曲検出部14での処理(ST7)について説明する。図6は、本実施の形態1の楽曲検出部14による、楽曲区間の検出処理の過程を示すチャート図である。同図において(1)は、第一の楽曲候補検出部10で算出されたラベルに対し、第一の補正部12によって補正処理を施して得たラベル50をプロットしたグラフ500である。また同じく、同図(2)は、第二の楽曲候補検出部11で算出された差異量に対し、第二の補正部13によって補正処理を施して得たラベル52をプロットしたグラフ502である。同図(3)は、ラベル50とラベル51とに基づいて検出処理したラベル54をプロットしたグラフ504である。グラフ500、502、504はいずれも、楽曲を示すラベルが付いた区間をHigh、非楽曲シーンを示すラベルが付いた区間をLowとしてラベル軸44で表している。
さらに、図6を用いて、楽曲検出部14における楽曲区間の検出処理について説明する。一例として、図に示すように、ラベル50に示す楽曲候補区間51a、51b、51cと、ラベル52に示す楽曲候補区間53a、53b、53c、53dが検出されているとする。本実施の形態1の楽曲検出部14では、双方の楽曲候補区間を論理OR(論理和)で処理し、楽曲区間を検出する。以下、図6を使って具体的に説明する。
一部の時刻で重複して検出された楽曲候補区間51aと53aから楽曲区間を検出する場合、開始時刻A1とB1が同じであれば、検出後の楽曲区間55aの開始時刻はC1で決定する。次に、終了時刻A2はB2よりも長い(楽曲区間が時間として延長する方向)ため、検出後の楽曲区間55aの終了時刻はA2の時刻を採用してC2となる。
同様に、楽曲候補区間51bと53bから楽曲区間を検出する場合、開始時刻A3とB3とではB3の方が長いため、検出後の楽曲区間55bの開始時刻はB3の時刻を採用してC3となる。終了時刻A4とB4とではB4の方が長いため、検出後の楽曲区間55bの終了時刻はB4の時刻を採用してC4となる。
さらに、楽曲候補区間53cについては時刻が重複する他方の楽曲候補区間が存在しないため、開始時刻B5と終了時刻B6がそのまま検出後の楽曲区間55cの開始時刻C5と終了時刻C6に採用される。
最後に、楽曲候補区間51cと53dから楽曲区間を検出する場合、開始時刻A5とB7とではA5の方が長いため、検出後の楽曲区間55dの開始時刻はA5の時刻を採用してC7となる。終了時刻A6とB8とではA6の方が長いため、検出後の楽曲区間55bの終了時刻はA6の時刻を採用してC8となる。これにより、検出後の楽曲区間55a、55b、55c、55dが決定する。
このように、楽曲区間の検出を楽曲候補区間の論理ORで判定することにより、複数の楽曲検出手段により、各々異なる基準で検出された楽曲候補区間を全て楽曲区間として決定することとなる。これにより、採用する楽曲検出手段に応じて広い範囲のジャンルの楽曲を検出することが可能となる。また、論理ORによる検出では楽曲区間を加算するものであるので、複数の楽曲検出手段による楽曲候補区間のうちに誤検出された非楽曲シーンが含まれていたとしても、判定処理の過程で他の楽曲検出手段で検出できていた楽曲シーンが弊害として削除されてしまうことがない。
また、上記で説明したとおり、第一の楽曲候補検出手段10は、高い確度で楽曲シーン、即ち楽曲区間の途中を検出できるが、楽曲シーンと非楽曲シーンとの境界を検出する精度は若干曖昧になるとの検出特性を有する。一方、第二の楽曲候補検出部11は、楽曲区間の開始時刻および終了時刻が高い精度で検出できるとの検出特性を有する。本実施の形態1の楽曲検出方法では、上記のように互いに検出特性の異なる検出方法を組み合わせることにより、より精度の高い方法としている。すなわち、第一の楽曲候補検出手段10の検出特性と第二の楽曲候補検出部11の検出特性とが互いの検出特性を補完しあうような関係となっているため、楽曲検出の精度をより高いものとしている。
次に、図7、8を用いて、検出された楽曲区間の楽曲情報をメタデータ生成部15にてメタデータファイルに生成する方法を説明する。図7は、本実施の形態1の映像音声記録装置のファイル構成図である。すなわち、図7は、蓄積メディア1の論理ファイル構造を示したものであり、論理的に階層構造を成すディレクトリ構造の最上位階層にルートディレクトリ90が配置され、そのルートディレクトリ90の下位層に、マルチメディアディレクトリ91、およびメタデータディレクトリ92が配置されている。
マルチメディアディレクトリ91には、蓄積メディア1に記録されている番組の管理番号を含む管理情報を記述した情報管理ファイル93、番組の映像信号または音声信号を符号化圧縮して多重化したマルチメディアデータファイル94、さらに情報管理ファイル93などのバックアップファイル95が配置されている。
一方、メタデータディレクトリ92には、番組を記録してマルチメディアデータファイル94が生成された際に検出された楽曲区間の楽曲情報が、独立した論理ファイルで成るメタデータファイル96に記述され、配置される。
なお、図7では、マルチメディアデータファイル94とメタデータファイル96とが個別のディレクトリに配置する例を示した。しかし、同一のディレクトリ内に配置されたり、メタデータファイル96がルートディレクトリ90に直接配置されてもよい。また、マルチメディアデータファイル94、あるいはメタデータファイル96は、記録した番組の数に応じて分割されたり、ファイル容量の制限などによって複数に分割されてもよい。
さらに、本実施の形態1におけるメタデータファイル96は、そのデータ形式は問わず、テキスト形式であってもバイナリ形式であってもよい。また、メタデータファイル96に記述されているデータの改ざんや、情報の流出を阻むために、暗号処理を施してもよい。
また、管理情報ファイル93に、所望の番組に対応するメタデータファイル96が存在しているか否か、あるいはメタデータファイル96に有効な値が存在するか否か、などの情報を記述しておいてもよい。このような情報が管理情報ファイル93に記録されていると、番組を再生する際に、当該情報を参照することで、素早く楽曲情報の存在あるいは有効性を判断することができる。
このように、メタデータファイル96をマルチメディアデータファイル94に重畳、多重化せずに独立した論理ファイルとする。これにより、番組を再生する際に、ファイル容量が大きなマルチメディアデータファイル94を走査することなく、比較的ファイル容量の小さなメタデータファイル96を読み出すことで楽曲情報を素早く取得することが可能となる。
なお、メタデータファイル96をマルチメディアデータファイル94に重畳してもよい。この場合は、ファイル数を少なくでき、また、マルチメディアデータと同一のファイルなので、楽曲情報を伴うマルチメディアデータをリムーバブルな記録媒体に記録して他機器で編集やコピーなどのファイル操作を行う際、メタデータが散逸することを抑制できる。
図8は、階層構造である本実施の形態1のメタデータ構造図である。図において、(A)は、データ構造の最上位の階層のメタデータ130である。
次に、図8(B)を用いて、メタデータ130のデータ構造を説明する。メタデータ全体の情報は、メタデータ管理情報131aに統括的に記述されている。この階層には、楽曲情報を持つ番組の数(1からn個)に応じた番組メタデータ情報131cと、番組メタデータ情報131cを個々にアクセスするためのアドレス情報である番組メタデータ情報サーチポインタ131bが配置される。
ここで、蓄積メディア1に楽曲情報を持つ番組が存在しない場合には、メタデータファイル96を作成しなくてもよく、また、メタデータ管理情報131aに番組メタデータ情報131cを0個と記述したメタデータファイル96を用意しても良い。
次に、図8(C)を用いて、番組メタデータ情報131cのデータ構造を説明する。この階層には、メタデータ一般情報132aと、楽曲マップ情報132bが配置される。メタデータ一般情報132aには、楽曲マップ情報132bをアクセスするためのアドレス情報などの他、番組メタデータ情報131cが対応するべき番組の管理番号が記述される。これは音楽番組以外を記録した時など、番組によっては楽曲情報を生成しない場合もあるために、情報管理ファイル93で管理される番組の管理番号と番組メタデータ情報131cの番号とが一致しない場合に、番組とメタデータとを関連付けるためのテーブルである。
次に、図8(D)を用いて、楽曲マップ情報132bのデータ構造を説明する。この階層には、楽曲マップ一般情報133aと、検出した楽曲の数(1からm個)に応じた楽曲エントリ133bが配置される。楽曲マップ一般情報133aには、楽曲エントリ133bを個々にアクセスするためのアドレス情報が記述される。
最後に、図8(E)を用いて、楽曲エントリ133bのデータ構造を説明する。この階層には、検出した楽曲区間の楽曲開始時刻情報134aと、楽曲終了時刻情報134bが配置される。時刻情報には、プレゼンテーションタイム(PTM)などが使用される。
以上説明したように、本実施の形態1では、楽曲区間の開始時刻と終了時刻をメタデータに記述する方法の例を述べたが、記録した番組から楽曲情報が特定できるデータ構造であれば良い。例えば、番組を1秒間などの固定時間で離散化した時に楽曲シーンである区間はHigh(1)、非楽曲シーンである区間はLow(0)とするなど二値化した結果を楽曲マップ情報として列挙するデータ構造としても、同等の機能が実現できる。
これにより、蓄積メディア1に記録した番組を再生する際にはメタデータファイル96からメタデータ130を読み出し、番組に存在する楽曲の楽曲情報を把握することができる。したがって、楽曲情報に基づく再生制御を行うことで、楽曲区間のみを連続再生したり、楽曲区間の開始点あるいは終了点に手動でスキップする機能など、効率的に楽曲シーンを視聴することが可能となる。
すなわち、従来は、非楽曲シーンやCM放送(CM放送については、実施の形態3で説明する。)を見飛ばすには、手動操作による早送りや早戻し再生によって楽曲シーンの先頭や終端などの境界を検索する必要があった。
また、記録媒体に長時間記録された番組から楽曲シーンを視聴したい場合、あるいは非楽曲シーンを視聴したい場合などは、視聴者が早送り(フォワードスキャン)や早戻し(バックワードスキャン)映像を見ながら所望のシーンを探したり、15秒などの固定時間のスキップによって所望のシーンが現れるまで操作を繰り返したりしなければならない。そのため、楽曲シーンの始点や終点の箇所を誤って行き過ぎることなく再生するには、予め楽曲シーンの箇所を正確に把握していなければ至難であった。特に、初見の番組を再生する場合においては、番組中のどこに楽曲シーンがあるのかわからないために、番組の冒頭から楽曲シーンを検索して行く手間を要していた。
しかし、本実施の形態1により記録された番組を再生する場合は、上記のような操作をする必要が無い。すなわち、再生時には初見の番組でも楽曲区間をあらかじめ把握することができるので、楽曲区間のみの連続再生や、楽曲区間の始点や終点への手動でのスキップ等の再生制御が可能となる。
なお、本実施の形態1では、映像信号3と音声信号4としてテレビジョン放送を例に説明したが、例えば、別の映像再生装置を使って外部入力端子から供給される映像音声信号であっても良い。あるいは、リムーバブルな蓄積メディア1や映像記録再生装置に内蔵したハードディスク(図示なし)などに記録している映像音声データを読み出し、符号化圧縮した音声データをデコード(複号)処理してPCM信号を得て楽曲情報を検出しても良い。この方法であれば、記録時にリアルタイムで楽曲区間の検出処理を行う必要が無いので、記録制御部の処理能力が低い場合であっても、記録後に時間を掛けて検出が可能となる。さらに、既に蓄積メディアに記録済の番組からも楽曲情報を得ることが出来る。
実施の形態2.
本実施の形態2では、楽曲検出部14による楽曲区間の検出処理として、実施の形態1で説明した方法とは異なる検出方法について説明する。図6は、本実施の形態2の楽曲検出部14による、楽曲区間の検出処理の過程を示すチャート図である。同図において(1)、(2)は、実施の形態1の図6に示したものと同じであり、同図(3)は、実施の形態1とは異なる検出方法により検出されたラベル60をプロットしたグラフ600である。
図9を用いて、実施の形態1とは異なる楽曲検出部14における楽曲区間の検出処理について説明する。本実施の形態2では、ラベル50、あるいはラベル52のいずれか一方を基点として楽曲区間を検出する点に特徴がある。
一例として、図に示すように、ラベル50に示す楽曲候補区間51a、51b、51cと、ラベル52に示す楽曲候補区間53a、53b、53c、53dが検出されているとする。ここでは、ラベル50を基点とする場合について説明する。
まず、楽曲候補区間51aの開始時刻A1の近傍でラベル52の楽曲候補区間の開始時刻を検索すると、B1が見つかる。開始時刻A1とB1が同じであれば、検出後の楽曲区間61aの開始時刻はP1で決定する。次に、楽曲候補区間51aの終了時刻A2の近傍でラベル52の楽曲候補区間の終了時刻を検索するとB2が見つかるので、検出後の楽曲区間61aの終了時刻はB2の時刻を採用してP2となる。
さらに、楽曲候補区間51bの開始時刻A3の近傍で、ラベル52の楽曲候補区間の開始時刻を検索するとB3が見つかるので、検出後の楽曲区間61bの開始時刻はB3を採用してP3となる。同様に、終了時刻A4については終了時刻B4が見つかるので、検出後の楽曲区間61bの終了点はB4を採用してP4となる。
なお、この時、A3を基点としてラベル52における楽曲候補区間の開始時刻を検索する範囲はA2からA4までの時刻とし、A4を基点としてラベル52における楽曲候補区間の終了時刻を検索する範囲はA3からA5までとする。この場合、仮に、ラベル52の楽曲候補区間が存在しない場合には、ラベル50の楽曲候補区間が検出後の楽曲区間となる。
以下同様に、楽曲区間61cについても検出処理によって開始時刻P5と終了時刻P6が決定する。なお、ラベル52の楽曲候補区間53cについては、基点となるラベル50の楽曲候補区間が存在しないために、検出処理によって削除されることになる。
このように、本実施の形態2では、高い確度で楽曲シーン、即ち楽曲区間の途中を検出できるが、楽曲シーンと非楽曲シーンとの境界を検出する精度は若干曖昧になるとの検出特性を有する第一の楽曲候補検出手段10により検出された楽曲候補区間を基準とする。そして、楽曲区間の開始時刻や終了時刻が高い精度で検出できる一方で非楽曲シーンを検出してしまう検出特性を持つ第二の楽曲候補検出手段11により検出された楽曲候補区間の有無を検出する。
つまり、検出時に、両者の検出特性を考慮して、楽曲区間の開始時刻及び終了時刻を、第二の楽曲候補検出手段11により検出された楽曲候補区間の開始時刻と終了時刻を優先的に採用する検出処理を行う。これにより、非楽曲シーンの誤検出を低減できると共に楽曲区間の開始時刻と終了時刻とを高い精度で検出することが可能となる。
すなわち、両者が互いに補完的な関係にある検出特性を考慮して、楽曲区間の途中である楽曲シーンを基準に楽曲区間の開始時刻と終了時刻とを検出することにより、高い精度で楽曲区間を検出することが可能となる。
実施の形態3.
本実施の形態3では、CM放送区間を検出することに特徴がある。図10は、本実施の形態3の映像音声記録装置を示すシステムブロック図である。また、図11は、本実施の形態3の楽曲区間の検出、記録方法を示すフローチャートである。映像音声記録装置700には、記録を行う対象となるテレビジョン放送などの映像信号3と音声信号4の特徴に基づいてCM放送区間を検出するCM検出部70を備える(ST9)。CM検出部70で検出されたCM放送区間の開始時刻と終了時刻は、楽曲検出部71に出力される。その他の構成要素については実施の形態1で示したものと同じであり、ここでは説明を省略する。
次に、図10、図11を用いて、CM検出部70の動作を説明する。まず、ビデオエンコーダ5は、映像信号3をMPEG−2方式で符号化圧縮した映像データにおけるIピクチャなどの映像フレームの輝度信号や色差成分(YUVフォーマット)等の変化量を監視する。そして、CM検出部70は、この変化量が所定の閾値以上となった場合にシーンチェンジが発生したと判定する機能を備える。さらに、CM検出部70は、A/Dコンバータ6において音声信号4をPCM方式に変換した音声データにおける音声波形の振幅が所定の閾値以下となった場合を無音と判定する機能も有する。
なお、テレビ放送において、CM放送区間を除外した番組本編の区間を「本編放送区間」とする。一般的にCM放送区間と本編放送区間との境界、あるいは複数連続するCM放送区間とCM放送区間との境界には、無音とシーンチェンジが同時刻に存在する。また、1つのCM放送は15秒、30秒など時間が決まっている。これらの現象に着目し、CM検出部70は、シーンチェンジと無音が同期して検出される箇所が所定間隔で連続する場合、この区間がCM放送区間であると判断する。CM検出部70は、CM放送が複数連続する区間の開始時刻と終了時刻の時間情報を示すプレゼンテーションタイム(PTM)を算出し、楽曲検出部71に出力する。
なお、CM放送の検出手段は、CM放送区間の開始時刻と終了時刻が検出できる方法であれば手法は問わない。例えば、音声信号4の音声方式が、本編放送に多いモノラル信号からCM放送に多いステレオ信号に変化する箇所を検出してもよい。また、映像信号3において本編放送区間とCM放送区間との境界に現れる黒画面(ブラックフレーム)を検出するものであってもよい。また、音声信号のみから、または映像信号のみからCM放送区間を検出しても良い。
図12は、本実施の形態3の楽曲検出部71による検出処理(図11では、ST9の「CM検出」に相当)の過程を示すチャート図である。同図において(1)は、検出された楽曲区間であるラベル80をプロットしたグラフ800である。楽曲区間の検出処理の方法については、実施の形態1および2で説明したものを用いる。また、同図(2)は、CM検出部で検出されたCM放送区間を示すCMラベル82をプロットしたグラフ802である。図中、CM放送区間として検出された区間をHigh、それ以外の区間をLowとしてラベル軸86で表している。
そして、同図(3)は、検出処理したラベル80とCMラベル82とをさらに再検出して得られるCM補正したラベル84をプロットしたグラフ804である。グラフ800、804は共に、楽曲区間を示すラベルが付いた区間をHigh、非楽曲シーンを示すラベルが付いた区間をLowとしてラベル軸44で表している。
次に、図12を用いて、楽曲検出部71におけるCM放送の検出処理について説明する。一例として、第一の楽曲検出手段と第二の楽曲検出手段による楽曲候補区間から得たラベル80に示す楽曲区間81a、81bと、CM検出部70によりCM放送を検出したCM放送区間83aがある場合、楽曲区間81a、81bのうちCM放送区間83aと重複する区間を非楽曲シーンとする補正処理を行う。
以下、図12を用いて具体的に説明する。楽曲区間85aの開始時刻D1は、CM放送と重複していないが、終了時刻D2はCM放送区間83aと重複している。よって、CM補正処理後の楽曲区間85aの開始時刻は、D1の時刻を採用してF1となり、終了時刻はCM放送区間83aの開始時刻E1を採用してF2となる。
同様に、楽曲区間81bの終了時刻D4はCM放送と重複していないが、開始時刻D3はCM放送区間83aと重複している。よって、CM補正処理後の楽曲区間85bの開始時刻は、CM放送区間83aの終了時刻E2を採用してF3となり、終了時刻はD4の時刻を採用してF4となる。ここでは図示しないが、検出処理後の楽曲区間が完全にCM放送区間と重複している場合には、その楽曲区間はCM補正処理により削除されることになる。
このように、CM放送が検出された区間は楽曲区間から除外されるので、BGM(バックグラウンドミュージック)や効果音として楽曲が多用されるCM放送を、本来の音楽番組として視聴したい楽曲と混同して誤検出しない効果がある。
なお、本実施の形態3では、楽曲区間の検出の後、CM放送区間を除外する方法について説明したが、楽曲候補区間決定後に、それぞれの楽曲候補区間からCM放送区間を除外し、その後に楽曲区間を検出してもよい。また、楽曲候補区間を検出する前にCM放送区間を除外してもよい。
なお、上記実施の形態1から3では、楽曲候補検出手段と補正手段とを別の手段としたが、これら二つの手段の機能を有する一つの楽曲検出手段としてもよい。
また、上記実施の形態1から3では、楽曲区間を含んだマルチメディアデータを記録するとしたが、検出された楽曲区間のみのマルチメディアデータを記録してもよい。
実施の形態1の映像音声記録装置を示すシステムブロック図である。 実施の形態1の楽曲区間の検出、記録方法を示すフローチャートである。 実施の形態1の第一の楽曲候補検出部を示すブロック図である。 実施の形態1の第二の楽曲候補検出部を示すブロック図である。 実施の形態1の補正処理を示すチャート図である。 実施の形態1の楽曲区間の検出処理を示すチャート図である。 実施の形態1の映像音声記録装置のファイル構成図である。 実施の形態1のメタデータ構造図である。 実施の形態2の楽曲区間の検出処理を示すチャート図である。 実施の形態3の映像音声記録装置を示すシステムブロック図である。 実施の形態3の楽曲区間の検出、記録方法を示すフローチャートである。 実施の形態3のCM放送区間の検出処理を示すチャート図である。
符号の説明
1 蓄積メディア、 2 書込みドライブ、 3 映像信号、 4 音声信号、 5 ビデオエンコーダ、 6 A/Dコンバータ、 7 オーディオエンコーダ、 8 マルチプレクサ、 9 書込みバッファメモリ、 10 第一の楽曲候補検出部、 11 第二の楽曲候補検出部、 12 第一の補正部、 13 第二の補正部、 14 楽曲検出部、 15 メタデータ生成部、 16 記録制御部、 20 直交変換処理部、 21 尤度比較処理部、 22 モデルデータ、 30 差分演算処理部、 40 時間経過(横軸)、 41 差異量(縦軸)、 42 差異量、 43 閾値、 44 ラベル軸、 45 ラベル、 46a、46b、46c 楽曲候補区間、 47 補正処理後のラベル、 48 補正処理後の楽曲候補区間、 50 補正処理後のラベル、 51a、51b、51c 補正処理後の楽曲候補区間、 52 補正処理後のラベル、 53a、53b、53c、53d 補正処理後の楽曲候補区間、 54 検出処理後のラベル、 55a、55b、55c、55d 楽曲区間、 60 検出処理後のラベル、 61a、61b、61c 楽曲区間、 70 CM検出部、 71 楽曲検出部、 80 検出処理後のラベル、 81a、81b 楽曲区間、 82 CMラベル、 83a CM放送区間、 84 CM補正処理後のラベル、 85a、85b 楽曲区間、 86 ラベル軸、 90 ルートディレクトリ、 91 マルチメディアディレクトリ、 92 メタデータディレクトリ、 93 情報管理ファイル、 94 マルチメディアデータファイル、 95 バックアップファイル、 96 メタデータファイル、 100 映像音声記録装置、 130 メタデータ、 131a メタデータ管理情報、 131b 番組メタデータ情報サーチポインタ、 131c 番組メタデータ情報、 132a メタデータ一般情報、 132b 楽曲マップ情報、 133a 楽曲マップ一般情報、 133b 楽曲エントリ、 134a 楽曲開始時刻情報、 134b 楽曲終了時刻情報、 400 差異量のグラフ、 405 ラベルのグラフ、 407 補正処理後のラベルのグラフ、 500 補正処理後のラベルのグラフ 、 502 補正処理後のラベルのグラフ、 504 検出処理後のラベルのグラフ、 600 検出処理後のラベルのグラフ、 700 映像音声記録装置。

Claims (14)

  1. 音声信号と映像信号とを含むデータを入力するデータ入力ステップと、
    各々異なる基準に基づいて、前記音声信号から、前記入力データの楽曲候補区間を検出する複数の楽曲候補区間検出ステップと、
    前記検出された複数の楽曲候補区間に基づいて、楽曲区間を検出する楽曲区間検出ステップと
    を備える楽曲区間検出方法。
  2. 前記複数の基準に含まれる一の基準の検出特性は、
    前記一以外の他の基準の検出特性を補完するように設定される
    請求項1に記載の楽曲区間検出方法。
  3. 前記基準の一つは、
    前記楽曲候補区間と、前記楽曲候補区間以外の区間との境界を検出するように設定される
    請求項1又は2に記載の楽曲区間検出方法。
  4. 前記基準の一つは、
    前記楽曲候補区間の途中を検出するように設定される
    請求項1又は2に記載の楽曲区間検出方法。
  5. 前記楽曲候補区間検出ステップは、
    前記検出された楽曲候補区間を補正する補正ステップを備える
    請求項1から4のいずれか1項に記載の楽曲区間検出方法。
  6. コマーシャル区間を検出するコマーシャル検出ステップを備え、
    前記楽曲区間から前記コマーシャル区間を除く
    請求項1から5のいずれか1項に記載の楽曲区間検出方法。
  7. 請求項1から6のいずれか1項に記載の楽曲区間検出方法により検出された楽曲区間を含むデータを記録するデータ記録ステップと、
    前記楽曲区間の時間情報を記録する時間情報記録ステップと
    を備えるデータ記録方法。
  8. 各々異なる基準に基づいて、音声信号と映像信号とを含む入力データの前記音声信号から、前記入力データの楽曲候補区間を検出する複数の楽曲候補区間検出部と、
    前記検出された複数の楽曲候補区間に基づいて、楽曲区間を検出する楽曲区間検出部と
    を備える楽曲区間検出装置。
  9. 前記複数の基準に含まれる一の基準の検出特性は、
    前記一以外の他の基準の検出特性を補完するように設定される
    請求項1に記載の楽曲区間検出装置。
  10. 前記基準の一つは、
    前記楽曲候補区間と、前記楽曲候補区間以外の区間との境界を検出するように設定される
    請求項8又は9に記載の楽曲区間検出装置。
  11. 前記基準の一つは、
    前記楽曲候補区間の途中を検出するように設定される
    請求項8又は9に記載の楽曲区間検出装置。
  12. 前記検出された楽曲候補区間を補正する補正部を備え、
    前記楽曲検出部は、前記補正部により補正された複数の楽曲候補区間に基づいて楽曲区間を検出する
    請求項8から11のいずれか1項に記載の楽曲区間検出装置。
  13. コマーシャル区間を検出するコマーシャル検出部を備え、
    前記楽曲区間検出部は、前記楽曲区間から前記コマーシャル区間を除く
    請求項8から12のいずれか1項に記載の楽曲区間検出装置。
  14. 請求項8から13のいずれか1項に記載の楽曲区間検出装置により検出された楽曲区間を含むデータを記録するデータ記録部を備え、
    前記データ記録部は、前記楽曲区間の時間情報を記録すること
    を特徴とするデータ記録装置。
JP2005374205A 2005-12-27 2005-12-27 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置 Expired - Fee Related JP4321518B2 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2005374205A JP4321518B2 (ja) 2005-12-27 2005-12-27 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
PCT/JP2006/325720 WO2007074755A1 (ja) 2005-12-27 2006-12-25 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
EP06835167A EP1968043B1 (en) 2005-12-27 2006-12-25 Musical composition section detecting method and its device, and data recording method and its device
KR1020087011761A KR100962803B1 (ko) 2005-12-27 2006-12-25 악곡 구간 검출 방법 및 그 장치, 및 데이터 기록 방법 및그 장치
US12/087,248 US8855796B2 (en) 2005-12-27 2006-12-25 Method and device for detecting music segment, and method and device for recording data
CN2006800430357A CN101310327B (zh) 2005-12-27 2006-12-25 乐曲区间检测方法及其装置、及数据记录方法及其装置
HK08113942.4A HK1122893A1 (en) 2005-12-27 2008-12-24 Musical composition section detecting method and its device, and data recording method and its device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005374205A JP4321518B2 (ja) 2005-12-27 2005-12-27 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置

Publications (3)

Publication Number Publication Date
JP2007180669A true JP2007180669A (ja) 2007-07-12
JP2007180669A5 JP2007180669A5 (ja) 2008-01-24
JP4321518B2 JP4321518B2 (ja) 2009-08-26

Family

ID=38217975

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005374205A Expired - Fee Related JP4321518B2 (ja) 2005-12-27 2005-12-27 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置

Country Status (7)

Country Link
US (1) US8855796B2 (ja)
EP (1) EP1968043B1 (ja)
JP (1) JP4321518B2 (ja)
KR (1) KR100962803B1 (ja)
CN (1) CN101310327B (ja)
HK (1) HK1122893A1 (ja)
WO (1) WO2007074755A1 (ja)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008241850A (ja) * 2007-03-26 2008-10-09 Sanyo Electric Co Ltd 録音または再生装置
US9386356B2 (en) 2008-11-26 2016-07-05 Free Stream Media Corp. Targeting with television audience data across multiple screens
US10567823B2 (en) 2008-11-26 2020-02-18 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US10334324B2 (en) 2008-11-26 2019-06-25 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US10977693B2 (en) 2008-11-26 2021-04-13 Free Stream Media Corp. Association of content identifier of audio-visual data with additional data through capture infrastructure
US9519772B2 (en) 2008-11-26 2016-12-13 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US10880340B2 (en) 2008-11-26 2020-12-29 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US9986279B2 (en) 2008-11-26 2018-05-29 Free Stream Media Corp. Discovery, access control, and communication with networked services
US9961388B2 (en) 2008-11-26 2018-05-01 David Harrison Exposure of public internet protocol addresses in an advertising exchange server to improve relevancy of advertisements
US9154942B2 (en) 2008-11-26 2015-10-06 Free Stream Media Corp. Zero configuration communication between a browser and a networked media device
US9026668B2 (en) 2012-05-26 2015-05-05 Free Stream Media Corp. Real-time and retargeted advertising on multiple screens of a user watching television
US8180891B1 (en) 2008-11-26 2012-05-15 Free Stream Media Corp. Discovery, access control, and communication with networked services from within a security sandbox
US10631068B2 (en) 2008-11-26 2020-04-21 Free Stream Media Corp. Content exposure attribution based on renderings of related content across multiple devices
US10419541B2 (en) 2008-11-26 2019-09-17 Free Stream Media Corp. Remotely control devices over a network without authentication or registration
US10375451B2 (en) 2009-05-29 2019-08-06 Inscape Data, Inc. Detection of common media segments
US9449090B2 (en) 2009-05-29 2016-09-20 Vizio Inscape Technologies, Llc Systems and methods for addressing a media database using distance associative hashing
US10949458B2 (en) 2009-05-29 2021-03-16 Inscape Data, Inc. System and method for improving work load management in ACR television monitoring system
US10116972B2 (en) 2009-05-29 2018-10-30 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
US8769584B2 (en) 2009-05-29 2014-07-01 TVI Interactive Systems, Inc. Methods for displaying contextually targeted content on a connected television
US9094714B2 (en) 2009-05-29 2015-07-28 Cognitive Networks, Inc. Systems and methods for on-screen graphics detection
US8930980B2 (en) 2010-05-27 2015-01-06 Cognitive Networks, Inc. Systems and methods for real-time television ad detection using an automated content recognition database
US8457771B2 (en) * 2009-12-10 2013-06-04 At&T Intellectual Property I, L.P. Automated detection and filtering of audio advertisements
US9838753B2 (en) 2013-12-23 2017-12-05 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
US10192138B2 (en) 2010-05-27 2019-01-29 Inscape Data, Inc. Systems and methods for reducing data density in large datasets
CN102956230B (zh) * 2011-08-19 2017-03-01 杜比实验室特许公司 对音频信号进行歌曲检测的方法和设备
BR112015023380B1 (pt) * 2013-03-15 2023-03-28 Inscape Data, Inc. Sistema e método para detecção de propaganda detelevisão em tempo real usando banco de dados de reconhecimento de conteúdo automatizado
CN110265058B (zh) 2013-12-19 2023-01-17 瑞典爱立信有限公司 估计音频信号中的背景噪声
US9955192B2 (en) 2013-12-23 2018-04-24 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
US20150301718A1 (en) * 2014-04-18 2015-10-22 Google Inc. Methods, systems, and media for presenting music items relating to media content
FR3022051B1 (fr) * 2014-06-10 2016-07-15 Weezic Procede de suivi d'une partition musicale et procede de modelisation associe
CN108337925B (zh) 2015-01-30 2024-02-27 构造数据有限责任公司 用于识别视频片段以及显示从替代源和/或在替代设备上观看的选项的方法
EP4375952A3 (en) 2015-04-17 2024-06-19 Inscape Data, Inc. Systems and methods for reducing data density in large datasets
US10136190B2 (en) 2015-05-20 2018-11-20 Echostar Technologies Llc Apparatus, systems and methods for song play using a media device having a buffer
US10805668B2 (en) 2015-05-20 2020-10-13 DISH Technologies L.L.C. Apparatus, systems and methods for trick function viewing of media content
CA2992529C (en) 2015-07-16 2022-02-15 Inscape Data, Inc. Prediction of future views of video segments to optimize system resource utilization
CA2992519C (en) 2015-07-16 2024-04-02 Inscape Data, Inc. Systems and methods for partitioning search indexes for improved efficiency in identifying media segments
CA2992319C (en) 2015-07-16 2023-11-21 Inscape Data, Inc. Detection of common media segments
US10080062B2 (en) 2015-07-16 2018-09-18 Inscape Data, Inc. Optimizing media fingerprint retention to improve system resource utilization
US10381022B1 (en) 2015-12-23 2019-08-13 Google Llc Audio classifier
AU2018250286C1 (en) 2017-04-06 2022-06-02 Inscape Data, Inc. Systems and methods for improving accuracy of device maps using media viewing data
US10872611B2 (en) * 2017-09-12 2020-12-22 Qualcomm Incorporated Selecting channel adjustment method for inter-frame temporal shift variations
CN112567450B (zh) * 2018-08-10 2024-03-29 雅马哈株式会社 乐谱数据的信息处理装置
CN109448684B (zh) * 2018-11-12 2023-11-17 合肥科拉斯特网络科技有限公司 一种智能编曲方法和系统
JP7226709B2 (ja) * 2019-01-07 2023-02-21 ヤマハ株式会社 映像制御システム、及び映像制御方法
US11523186B2 (en) * 2019-09-27 2022-12-06 Disney Enterprises, Inc. Automated audio mapping using an artificial neural network

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794194A (en) * 1989-11-28 1998-08-11 Kabushiki Kaisha Toshiba Word spotting in a variable noise level environment
KR940001861B1 (ko) * 1991-04-12 1994-03-09 삼성전자 주식회사 오디오 대역신호의 음성/음악 판별장치
DE69214882T2 (de) * 1991-06-06 1997-03-20 Matsushita Electric Ind Co Ltd Gerät zur Unterscheidung von Musik und Sprache
JPH08265660A (ja) 1995-03-20 1996-10-11 Nippon Telegr & Teleph Corp <Ntt> 音楽管理方法および装置
JPH099199A (ja) 1995-06-19 1997-01-10 Sony Corp 映像信号記録/再生装置
US5712953A (en) * 1995-06-28 1998-01-27 Electronic Data Systems Corporation System and method for classification of audio or audio/video signals based on musical content
JPH09284704A (ja) 1996-04-15 1997-10-31 Sony Corp 映像信号選択装置及びダイジェスト記録装置
US6525255B1 (en) * 1996-11-20 2003-02-25 Yamaha Corporation Sound signal analyzing device
JP3669129B2 (ja) 1996-11-20 2005-07-06 ヤマハ株式会社 音信号分析装置及び方法
JP3475317B2 (ja) 1996-12-20 2003-12-08 日本電信電話株式会社 映像分類方法および装置
JPH1155613A (ja) * 1997-07-30 1999-02-26 Hitachi Ltd 記録および/または再生装置およびこれに用いられる記録媒体
JP3434195B2 (ja) 1998-03-18 2003-08-04 日本電信電話株式会社 音楽映像管理方法、装置および音楽映像管理プログラムを記録した記録媒体
JP2000099069A (ja) 1998-09-24 2000-04-07 Sony Corp 情報信号処理方法及び装置
JP4300697B2 (ja) * 2000-04-24 2009-07-22 ソニー株式会社 信号処理装置及び方法
JP4596196B2 (ja) * 2000-08-02 2010-12-08 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
CN1175398C (zh) * 2000-11-18 2004-11-10 中兴通讯股份有限公司 一种从噪声环境中识别出语音和音乐的声音活动检测方法
US6625600B2 (en) * 2001-04-12 2003-09-23 Telelogue, Inc. Method and apparatus for automatically processing a user's communication
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
JP2002344852A (ja) 2001-05-14 2002-11-29 Sony Corp 情報信号処理装置および情報信号処理方法
JP2003099083A (ja) 2001-09-25 2003-04-04 Nippon Hoso Kyokai <Nhk> 音声認識装置
US7260439B2 (en) * 2001-11-01 2007-08-21 Fuji Xerox Co., Ltd. Systems and methods for the automatic extraction of audio excerpts
US7386217B2 (en) * 2001-12-14 2008-06-10 Hewlett-Packard Development Company, L.P. Indexing video by detecting speech and music in audio
KR100472904B1 (ko) * 2002-02-20 2005-03-08 안호성 음악 부분을 자동으로 선별해 저장하는 디지털 음악 재생장치 및 그 방법
KR100880480B1 (ko) * 2002-02-21 2009-01-28 엘지전자 주식회사 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템
JP2003298981A (ja) 2002-04-03 2003-10-17 Oojisu Soken:Kk 要約画像作成装置、要約画像作成方法、要約画像作成プログラム、及び要約画像作成プログラムを記憶したコンピュータ読取可能な記憶媒体
US7286749B2 (en) * 2002-04-16 2007-10-23 Canon Kabushiki Kaisha Moving image playback apparatus, moving image playback method, and computer program thereof with determining of first voice period which represents a human utterance period and second voice period other than the first voice period
JP4086532B2 (ja) 2002-04-16 2008-05-14 キヤノン株式会社 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP4109065B2 (ja) 2002-09-27 2008-06-25 クラリオン株式会社 記録再生装置、記録装置、それらの制御方法、制御プログラム及び記録媒体
AU2003286722A1 (en) * 2002-10-28 2004-05-25 Gracenote, Inc. Personal audio recording system
US7031915B2 (en) * 2003-01-23 2006-04-18 Aurilab Llc Assisted speech recognition by dual search acceleration technique
US7336890B2 (en) * 2003-02-19 2008-02-26 Microsoft Corporation Automatic detection and segmentation of music videos in an audio/video stream
US20040167767A1 (en) * 2003-02-25 2004-08-26 Ziyou Xiong Method and system for extracting sports highlights from audio signals
JP4199097B2 (ja) * 2003-11-21 2008-12-17 パイオニア株式会社 楽曲自動分類装置及び方法
KR100831531B1 (ko) * 2004-01-14 2008-05-22 미쓰비시덴키 가부시키가이샤 기록 장치, 기록 방법, 기록 매체, 요약 재생 장치, 요약 재생 방법, 멀티미디어 요약 시스템 및 멀티미디어 요약 방법
US20050154987A1 (en) * 2004-01-14 2005-07-14 Isao Otsuka System and method for recording and reproducing multimedia
US7022907B2 (en) * 2004-03-25 2006-04-04 Microsoft Corporation Automatic music mood detection
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
FI20045146A0 (fi) * 2004-04-22 2004-04-22 Nokia Corp Audioaktiivisuuden ilmaisu
US20060149693A1 (en) * 2005-01-04 2006-07-06 Isao Otsuka Enhanced classification using training data refinement and classifier updating
US20060212297A1 (en) * 2005-03-18 2006-09-21 International Business Machines Corporation System and method using blind change detection for audio segmentation
JP2006301134A (ja) 2005-04-19 2006-11-02 Hitachi Ltd 音楽検出装置、音楽検出方法及び録音再生装置
GB2425730B (en) * 2005-05-03 2010-06-23 Codemasters Software Co Rhythm action game apparatus and method
JP4201204B2 (ja) 2005-05-26 2008-12-24 Kddi株式会社 オーディオ情報分類装置
KR100749045B1 (ko) * 2006-01-26 2007-08-13 삼성전자주식회사 음악 내용 요약본을 이용한 유사곡 검색 방법 및 그 장치

Also Published As

Publication number Publication date
WO2007074755A1 (ja) 2007-07-05
KR100962803B1 (ko) 2010-06-10
CN101310327B (zh) 2012-07-18
US20090088878A1 (en) 2009-04-02
HK1122893A1 (en) 2009-05-29
KR20080059650A (ko) 2008-06-30
US8855796B2 (en) 2014-10-07
EP1968043A1 (en) 2008-09-10
EP1968043B1 (en) 2013-02-20
JP4321518B2 (ja) 2009-08-26
CN101310327A (zh) 2008-11-19
EP1968043A4 (en) 2011-09-28

Similar Documents

Publication Publication Date Title
JP4321518B2 (ja) 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
JP4442585B2 (ja) 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
JP4081120B2 (ja) 記録装置、記録再生装置
US8332059B2 (en) Apparatus and method for synchronizing additional data and base data
KR20060027826A (ko) 비디오 처리장치, 비디오 처리장치용 집적회로, 비디오처리방법, 및 비디오 처리 프로그램
JPWO2005069172A1 (ja) 要約再生装置および要約再生方法
CN101714367B (zh) 信息存储介质和用于再现其的设备和方法
JP4840325B2 (ja) 映像音声記録装置
JP2007006095A (ja) コンテンツ再生装置、コンテンツ再生方法、コンテンツ再生プログラムを格納した記録媒体およびコンテンツ再生装置に用いられる集積回路
JP2006270233A (ja) 信号処理方法及び信号記録再生装置
JP2008124551A (ja) ダイジェスト作成装置
JP2008047203A (ja) 楽曲結合装置、楽曲結合方法、及び楽曲結合プログラム
JP4422538B2 (ja) 音付映像の再生装置
JP4312167B2 (ja) コンテンツ再生装置
JP2005223794A (ja) 映像音響コンテンツの記録装置及び方法
JP5132789B2 (ja) 動画像符号化装置及び方法
Mason et al. Research White Paper
JP2006303868A (ja) 信号属性判定装置、信号属性判定方法、情報信号記録装置、情報信号記録方法、情報信号再生装置、情報信号再生方法、情報信号記録再生装置および情報信号記録再生方法並びに記録媒体
JP2006050235A (ja) 受信記録再生装置および放送情報提供装置
WO2006075303A2 (en) Broadcasting signal containing music data

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070423

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090512

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090525

R151 Written notification of patent or utility model registration

Ref document number: 4321518

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120612

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130612

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees