JP3840928B2 - 信号処理装置および方法、記録媒体、並びにプログラム - Google Patents

信号処理装置および方法、記録媒体、並びにプログラム Download PDF

Info

Publication number
JP3840928B2
JP3840928B2 JP2001216716A JP2001216716A JP3840928B2 JP 3840928 B2 JP3840928 B2 JP 3840928B2 JP 2001216716 A JP2001216716 A JP 2001216716A JP 2001216716 A JP2001216716 A JP 2001216716A JP 3840928 B2 JP3840928 B2 JP 3840928B2
Authority
JP
Japan
Prior art keywords
signal
value
amplitude
change
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001216716A
Other languages
English (en)
Other versions
JP2003029772A (ja
Inventor
素嗣 安部
正之 西口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2001216716A priority Critical patent/JP3840928B2/ja
Priority to US10/194,763 priority patent/US6934462B2/en
Publication of JP2003029772A publication Critical patent/JP2003029772A/ja
Priority to US11/194,024 priority patent/US7865063B2/en
Application granted granted Critical
Publication of JP3840928B2 publication Critical patent/JP3840928B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/426Internal components of the client ; Characteristics thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4334Recording operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/812Monomedia components thereof involving advertisement data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/147Scene change detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • G11B2220/25Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
    • G11B2220/2525Magneto-optical [MO] discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/90Tape-like record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/107Programmed access in sequence to addressed parts of tracks of operating record carriers of operating tapes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N5/9201Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Television Signal Processing For Recording (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、信号処理装置および方法、記録媒体、並びにプログラムに関し、特に、音響の変換点を検出することができるようにした信号処理装置および方法、記録媒体、並びにプログラムに関する。
【0002】
【従来の技術】
テレビジョン放送、ラジオ放送、ビデオテープ、またはビデオディスク等から得られる映像音声信号に対して、編集、インデクシング、検索、または要約を行う場合、コンテンツの内容や場面が切り替わる点(シーチェンジ)が利用される。
【0003】
シーンチェンジの検出は、例えば、映像信号が大きく変化する場面(カットチェンジ)を検出し、それをシーンチェンジとして代用することで行われる。しかしながら、同一のシーン内には、複数のカットチェンジが存在する場合もあり、このときこの方法では、必要以上にシーンチェンジが検出されてしまう。
【0004】
なお、特開平5-37893号公報には、映像信号のフレーム間の差分を検出し、その時点の静止映像を順次記録、再生することでテレビジョン信号の要約の記録再生を行う方法が開示されている。
【0005】
また、特開平2000-5111743号公報には、一定区間の音声信号の最小レベルを、背景音声レベルとし、その背景音声レベルの変化が大きい時点をシーンチェンジとする方法が開示されている。
【0006】
しなしながら、背景音声とそうでない音声とが明確に区別されていない場合があること、背景音声レベルの変化を伴わないシーンチェンジが存在すること、そして同一シーン内で背景音声レベルが変化する場合があること等の理由から、この方法でも、シーンチェンジを正確に検出することができない。
【0007】
さらに、無音区間を、シーンチェンジとして検出する方法も考えられているが、無音区間が存在せずに、急激に音響信号の切り換えが行われる場合もあるので、この方法でも、シーンチェンジを正確に検出することはできない。
【0008】
【発明が解決しようとする課題】
すなわち、従来においては、シーンチェンジを正確に検出することができないという課題があった。
【0009】
本発明はこのような状況に鑑みてなされたものであり、シーンチェンジをより正確に検出することができるようにするものである。
【0010】
【課題を解決するための手段】
本発明の第1の信号処理装置は、入力音響信号に対して、入力音響信号の振幅を抽出する振幅抽出手段と、振幅抽出手段により抽出された振幅の時間的変化に基づいて、入力音響信号の内容の変化点を検出する変化点検出手段とを備え、振幅抽出手段は、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、変化点検出手段は、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値を検出するとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、スペクトル変化量が所定の閾値より大きい場合に変化点とすることを特徴とする。
【0011】
振幅抽出手段は、周波数分解されてスケールファクタとともに符号化された入力音響信号に対しては、スケールファクタを振幅として抽出することができる。
【0012】
本発明の第1の信号処理方法は、入力音響信号に対して、入力音響信号の振幅を抽出する振幅抽出ステップと、振幅抽出ステップの処理で抽出された振幅の時間的変化に基づいて、入力音響信号の内容の変化点を検出する変化点検出ステップとを含み、振幅抽出ステップは、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、変化点検出ステップは、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値を検出するとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、スペクトル変化量が所定の閾値より大きい場合に変化点とすることを特徴とする。
【0013】
本発明の第1の記録媒体のプログラムは、入力音響信号に対して、入力音響信号の振幅を抽出する振幅抽出ステップと、振幅抽出ステップの処理で抽出された振幅の時間的変化に基づいて、入力音響信号の内容の変化点を検出する変化点検出ステップとを含み、振幅抽出ステップは、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、変化点検出ステップは、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値を検出するとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、
スペクトル変化量が所定の閾値より大きい場合に変化点とすることを特徴とする。
【0014】
本発明の第1のプログラムは、入力音響信号に対して、入力音響信号の振幅を抽出する振幅抽出ステップと、振幅抽出ステップの処理で抽出された振幅の時間的変化に基づいて、入力音響信号の内容の変化点を検出する変化点検出ステップとを含み、振幅抽出ステップは、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、変化点検出ステップは、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値を検出するとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、スペクトル変化量が所定の閾値より大きい場合に変化点とすることをコンピュータに実行させることを特徴とする。
【0015】
本発明の第1の信号処理装置および方法、並びにプログラムにおいては、入力音響信号の振幅が抽出され、抽出された振幅の時間的変化に基づいて、入力音響信号の内容の変化点が検出され、その際、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅が抽出され、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値が検出されるとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出された値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量が算出され、スペクトル変化量が所定の閾値より大きい場合に変化点とされる。
【0016】
本発明の第2の信号処理装置は、入力音響信号の振幅を抽出し、抽出した振幅の時間的変化に基づいて、入力音響信号の内容の変化点を検出する音響信号変化点検出手段を備え、変化点検出手段は、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値を検出するとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、変化量が所定の閾値より大きい場合に変化点とし、検出された音響信号変化点近傍の映像および音声を再生または記録することを特徴とする。
【0017】
映像音響信号は、テレビジョン放送信号であり、所定の内容の信号は、コマーシャルメッセージであるようにすることができる。
【0018】
本発明の第2の信号処理方法は、入力音響信号の振幅を抽出し、抽出した振幅の時間的変化に基づいて、入力音響信号の内容の変化点を検出する音響信号変化点検出ステップを含み、変化点検出ステップは、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値を検出するとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、変化量が所定の閾値より大きい場合に変化点とし、検出された音響信号変化点近傍の映像および音声を再生または記録することを特徴とする。
【0019】
本発明の第2の記録媒体のプログラムは、入力音響信号の振幅を抽出し、抽出した振幅の時間的変化に基づいて、入力音響信号の内容の変化点を検出する音響信号変化点検出ステップを含み、変化点検出ステップは、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値を検出するとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、変化量が所定の閾値より大きい場合に変化点とし、検出された音響信号変化点近傍の映像および音声を再生または記録することを特徴とする。
【0020】
本発明の第2のプログラムは、入力音響信号の振幅を抽出し、抽出した振幅の時間的変化に基づいて、入力音響信号の内容の変化点を検出する音響信号変化点検出ステップを含み、変化点検出ステップは、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値を検出するとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、変化量が所定の閾値より大きい場合に変化点とし、検出された音響信号変化点近傍の映像および音声を再生または記録することを特徴とする。
【0021】
本発明の第2の信号処理装置および方法、並びにプログラムにおいては、入力音響信号の振幅が抽出され、抽出された振幅の時間的変化に基づいて、入力音響信号の内容の変化点が検出され、その際、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅が抽出され、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値が検出されるとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量が算出され、変化量が所定の閾値より大きい場合に変化点とされ、検出された音響信号変化点近傍の映像および音声が再生または記録される。
【0022】
本発明の第3の信号処理装置は、入力映像信号の内容の変化点を検出する映像信号変化点検出手段と、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値を検出するとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、変化量が所定の閾値より大きい場合に変化点として検出する音響信号変化点検出手段と、検出した入力音響信号の内容の変化点と入力映像信号の内容の変化点がほぼ同じタイミングで検出されたと判定したときに所定の信号内容を検出する検出手段とを備えることを特徴とする。
【0023】
映像音響信号は、テレビジョン放送信号であり、所定の内容の信号はコマーシャルメッセージであるようにすることができる。
【0024】
本発明の第3の信号処理方法は、入力映像信号の内容の変化点を検出する映像信号変化点検出ステップと、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値を検出するとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、変化量が所定の閾値より大きい場合に変化点として検出する音響信号変化点検出ステップと、検出した入力音響信号の内容の変化点と入力映像信号の内容の変化点がほぼ同じタイミングで検出されたと判定したときに所定の信号内容を検出する検出ステップとを含むことを特徴とする。
【0025】
本発明の第3の記録媒体のプログラムは、入力映像信号の内容の変化点を検出する映像信号変化点検出ステップと、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値を検出するとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、変化量が所定の閾値より大きい場合に変化点として検出する音響信号変化点検出ステップと、検出した入力音響信号の内容の変化点と入力映像信号の内容の変化点がほぼ同じタイミングで検出されたと判定したときに所定の信号内容を検出する検出ステップとを含むことを特徴とする。
【0026】
本発明の第3のプログラムは、入力映像信号の内容の変化点を検出する映像信号変化点検出ステップと、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値を検出するとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、変化量が所定の閾値より大きい場合に変化点として検出する音響信号変化点検出ステップと、検出した入力音響信号の内容の変化点と入力映像信号の内容の変化点がほぼ同じタイミングで検出されたと判定したときに所定の信号内容を検出する検出ステップとを含むことを特徴とする。
【0027】
本発明の第3の信号処理装置および方法、並びにプログラムにおいては、入力映像信号の内容の変化点が検出され、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅が抽出され、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値が検出されるとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量が算出され、変化量が所定の閾値より大きい場合に変化点として検出され、検出された入力音響信号の内容の変化点と入力映像信号の内容の変化点がほぼ同じタイミングで検出されたと判定したときに所定の信号内容が検出される。
【0031】
【発明の実施の形態】
図1は、本発明の音声信号処理装置1の構成例を示している。この場合、音声信号処理装置1には、コンテンツを構成する映像音声信号のうちの音声信号が入力されるものとする。
【0032】
スペクトル分解部11は、バンドパスフィルタ群や高速フーリエ変換器等により構成されており、入力される音声信号を、複数の周波数帯域の信号に分解する。複数の周波数帯域に分解された信号(以下、サブバンド信号と称する)は、振幅検出部12に供給される。
【0033】
振幅検出部12は、スペクトル分解部11からの各サブバンド信号の振幅を検出し、その検出結果を平滑部13に供給する。
【0034】
平滑部13は、メジアンフィルタ、モードフィルタ、最小値フィルタなどの平滑フィルタにより構成され、振幅検出部12から供給された各サブバンド信号の振幅の急激な変動を平滑化する。平滑部13は、平滑したサブバンド信号の振幅(以下、平滑化バンドパス振幅と称する)を、平滑時間に併せてサンプリングし、そのサンプリング結果を、記憶部14および算出部15に出力する。
【0035】
なお、平滑部13は、例えば、所定の区間(数秒間)のサブバンド信号の振幅を平均することで、サブバンド信号の振幅を平滑化するようにすることもできる。
【0036】
記憶部14は、1サンプリング時間または数サンプリング時間に渡る平滑化サブバンド振幅を記憶する。
【0037】
算出部15は、平滑部13および記憶部14から供給される平滑化サブバンド振幅を利用して、式(1)を解き、スペクトル変化量Dを算出する。
【0038】
【数1】
Figure 0003840928
【0039】
式中、nは、サンプリング時刻を表し、kは、サブバンド信号の周波数帯域を表し、Kは、サブバンド信号の数を表し、そしてF(n,k)は、kで表される周波数帯域のサンプリング時刻nの平滑化サブバンド振幅の値を表す。
【0040】
すなわち、予め決められた複数の値がwに順に設定されて、式(1)が演算され、その演算結果が最小となるwが検出される。そしてそのときの演算結果が、スペクトル変化量Dとなる。従って、スペクトル変化量Dは、時刻nと、時刻n−1のスペクトルの差分エネルギーを、現在のスペクトルエネルギーで正規化した値(0乃至1)である。
【0041】
なお、スペクトル変化量Dは、実際は計算を簡単にするために、式(1)と等値の式(2)を演算することで求められる。式中、Saaは式(3)、Sbbは式(4)、そしてSabは式(5)で求められる。
【0042】
【数2】
Figure 0003840928
【数3】
Figure 0003840928
【0043】
算出部15は、算出したスペクトル変化量Dを、適宜、シーンチェンジ判定部16に出力する。
【0044】
シーンチェンジ判定部16は、算出部15からのスペクトル変化量Dが予め設定された閾値より大きいか否かを判定し、閾値より大きいと判定した場合、例えば、スペクトル変化量Dが得られた音声信号の位置(時刻)をシーンチェンジの検出信号として出力する。
【0045】
なお、検出されたシーンチェンジが隣接して複数個存在する場合、それらのうちの1つをシーンチェンジとするようにすることもできる。
【0046】
次に、音声信号処理装置1の動作を、図2のフローチャートを参照して説明する。なお、ここでは、図3(A)に示すテレビジョン放送の音声信号からシーンチェンジを検出するものとする。
【0047】
ステップS1において、スペクトル分解部11は、入力されたテレビジョン放送の音声信号を、8個の周波数帯域のサブバンド信号に分解する。ステップS2において、振幅検出部12は、スペクトル分解部11からの各サブバンド信号の振幅を検出し、検出結果を平滑部13に出力する。
【0048】
次に、ステップS3において、平滑部13は、各サブバンド信号の振幅を、図3(D)に示すように平滑化するとともに、平滑時間に合わせてサンプリングを行い、そのサンプリング結果を、記憶部14および算出部15に出力する。図3(D)には、各サブバンド信号の平滑化サブバンド振幅が示されている。なお、図中、縦軸に示されている数値は、各周波数帯域の中心周波数である。
【0049】
次に、ステップS4において、算出部15は、平滑部13からの平滑化サブバンド振幅の値F(n,k)と、記憶部14からの、それより1つ前にサンプリングされた平滑化サブバンド振幅の値F(n−1,k)を利用して式(2)を解き、スペクトル変化量Dを算出する。
【0050】
図3(A)において、放送内容がCMから番組本編に切り替わる、時刻10秒付近では、その時間帯の各平滑化サブバンド振幅を拡張した図4に示すように、変化の割合が各平滑化サブバンド振幅毎で異なるので(高域側での増加率は大きいが、低域側での増加率は小さいので)、図3(C)に示すように、このとき大きなスペクトル変化量Dが算出される。
【0051】
また図3(A)において、ガラスの破砕音が発生する、時刻13秒付近、および手を叩した音が発生する時刻29秒付近においても、大きなスペクトル変化量Dが算出される。
【0052】
ステップS5において、シーンチェンジ判定部16は、算出部15により算出されたスペクトル変化量Dが、所定の閾値より大きいか否かを判定し、ステップS6において、その判定結果に基づく処理を行う。
【0053】
例えば、スペクトル変化量Dが閾値より大きいと判定された場合、シーンチェンジ判定部16は、シーンチェンジの検出信号を、外部の装置に出力する。
【0054】
その後、処理は終了し、次に入力される音声信号に対してステップS1乃至ステップS6の処理が同様に行われる。
【0055】
すなわち、本発明によれば、図3のテレビジョン放送からは、CMから番組に切り替わったとき、ガラスの破砕音が発生したとき、また手を叩いた音が発生したときを、シーンチェンジとして検出することができる。
【0056】
それに対して、映像信号を利用した従来の方法では、図3(B)の縦方向の線で示されるように、同一シーン(例えば、1つのCM)から複数のカットチェンジ(シーンチェンジ)が検出されてしまう。
【0057】
図5は、他のテレビジョン放送の音声信号からシーンチェンジを検出した場合の例を表している。
【0058】
この場合においても、本発明によれば、図5(C)に示すように、図5(A)中上向きの矢印で示されている、音声が切り替わるとき、CM1からCM2に切り替わるとき、CM2から番組に切り換わるとき、大きなスペクトル変化量Dが算出されるので、その時点をシーンチェンジとして検出することができる。それに対して映像信号を利用した従来の方法では、図5(B)に示すように、同一シーンから複数のカットチェンジが検出される。なお、図5(E)は、音声信号の波形を表している。
【0059】
図6は、音声信号処理装置1の他の構成例を表している。この音声信号処理装置には、図1のスペクトル分解部11および振幅検出部12に代えて、スケールファクタ抽出部21が設けられている。他の部分は、図1における場合と同様である。
【0060】
この例の場合、音声信号処理装置1には、MPEG1方式など、周波数分解を伴う符号化方法で符号化された音声信号が入力される。通常、MPEG1方式で符号化される場合、周波数分解された信号は、符号化効率を向上させるために正規化され、その正規化のために算出された拡大縮小率(スケールファクタ)が音声信号とともに符号化されるようになされている。
【0061】
すなわち、スケールファクタ抽出部21は、入力された符号化信号から各サブバンド信号のスケールファクタを抽出し、それを平滑部13に供給する。
【0062】
平滑部13は、スケールファクタ抽出部21から供給されたスケールファクタの急激な変動を平滑化する。平滑部13は、平滑化したスケールファクタを、平滑時間に合わせてサンプリングし、そのサンプリング結果を、記憶部14および算出部15に出力する。
【0063】
算出部15は、図1における場合と同様に、平滑部13および記憶部14からのサンプリング値に基づいて式(2)を演算してスペクトル変化量Dを算出し、シーンチェンジ判定部16は、スペクトル変化量Dに基づいてシーンチェンジを検出する。
【0064】
スケールファクタは、各周波数帯域のフレーム内の平均振幅と概略比例関係にあるので、このようにスケールファクタを利用してシーンチェンジを検出することができる。すなわち、この場合、符号化信号を復号することなく、シーンチェンジを検出することができる。
【0065】
図7は、音声信号処理装置1を利用した記録再生装置の構成例を示している。この装置は、コンテンツを構成する映像音声信号から代表画像や代表音声を記録再生することができる。すなわち、ユーザは、例えば、この装置に記録された代表画像または代表音声を視聴することで、コンテンツの内容を容易に把握することができる。またユーザは、この装置に記録された画像や音声をコンテンツの頭出しのインデックスとして利用し、迅速に頭出しを行うこともできる。
【0066】
信号処理装置1は、上述したように、入力された音声信号のスペクトル変化量Dに基づいてシーンチェンジを検出し、その検出結果を、制御部32に出力する。
【0067】
映像信号処理部31は、入力される映像信号が大きく変化する部分を検出し、すなわち、カットチェンジを検出し、その検出結果を、制御部32に出力する。なお、映像信号処理部31は、例えば、特開平5-37893号公報に開示されている技術を利用してカットチェンジを検出する。
【0068】
制御部32は、音声信号処理装置1からの検出結果および映像信号処理部31からの検出結果に基づいて、代表映像および代表音声を決定する。
【0069】
例えば、制御部32は、音声信号処理装置1または映像信号処理部31のいずれか一方で、シーンチェンジ(カットチェンジ)が検出されたとき、または両者においてほぼ同じタイミングで検出されたとき、そのシーンチェンジに対応する画像および音声を代表画像および代表音声とする。
【0070】
制御部32は、代表画像および代表音声を決定したとき、それらの画像音声の開始時刻とその長さを、音声抽出部33、画像抽出部34、およびタイムスタンプ生成部35にそれぞれ出力する。
【0071】
音声抽出部33は、入力される音声信号から、制御部32からの情報に対応する音声を抽出し、記録部36に出力する。画像抽出部34は、入力される映像信号から、制御部32からの情報に対応する画像を抽出し、記録部36に出力する。
【0072】
タイムスタンプ生成部35は、制御部32からの情報に基づいて、音声抽出部33により抽出された音声信号および画像抽出部34により抽出された映像信号を適切に再生させるためのタイムスタンプを生成し、記録部36に出力する。
【0073】
記録部36は、例えば、磁気テープ、磁気ディスク、光ディスク、または光磁気ディスク等を記録媒体として用い、音声抽出部33および画像抽出部34からの音声信号および映像信号を、タイムスタンプ生成部35からのタイムスタンプと対応させて記録する。
【0074】
再生部37は、必要に応じて記録部36に記録されている音声(代表音声)および画像(代表画像)を再生する。
【0075】
図8は、音声信号処理装置1を利用したCM検出装置の構成例を示している。この装置は、テレビジョン放送の番組本編に付加されるコマーシャルメッセージ(CM)を検出することができる。
【0076】
音声信号処理装置1は、上述したように、入力されるテレビジョン放送の音声信号のスペクトル変化量Dに基づいてシーンチェンジを検出し、その検出結果を制御部41に出力する。
【0077】
映像信号処理部31(図7の記録再生装置の映像信号処理部31と同じもの)は、入力されたテレビジョン放送の映像信号からカットチェンジを検出し、その検出結果を制御部41に出力する。
【0078】
制御部41は、信号処理装置1および映像処理部31からの検出結果に基づいてCMの開始時刻と長さを検出し、記録部42に出力する。
【0079】
記録部42は、入力される音声信号および映像信号とともに、制御部41からのCMの開始時刻と長さを記録する。
【0080】
次に、CM検出装置の制御部41の動作を、図9のフローチャートを参照して説明する。
【0081】
ステップS11において、制御部41は、音声信号処理装置1および映像信号処理部31からの検出結果に基づいて、音響的なシーンチェンジと映像のカットチェンジの両方が同じタイミングで(ほぼ同一時刻に)検出されたか否かを判定し、同じタイミングで検出されたと判定した場合、ステップS12に進み、そのタイミングに対応する時刻を内蔵するメモリに記憶させる。
【0082】
次に、ステップS13において、制御部41は、ステップS12で記憶された時刻から時間T1だけ前の時刻付近に、シーンチェンジとカットチェンジの両方が検出されていたか否かを判定し、検出されていたと判定した場合、ステップS14に進む。
【0083】
なお、同じタイミングでシーンチェンジとカットチェンジの両方が検出されたときの時刻は、以前行われたステップS12の処理でメモリに記録されているので、制御部41は、メモリの内容を参照してステップS13での判定を行う。
【0084】
また、時間T1は、CMの放送時間である。テレビジョン放送されるCMは、放送者の指定する規格に基づいて制作されるため、その時間長はいくつかに限定されている。例えば、日本国内においては、特殊な例を除くほぼ全てのCMが、15秒、30秒、または60秒の長さで制作されている。すなわち、時間T1は、それらの時間のいずれかの時間とされる。
【0085】
ステップS14において、制御部41は、ステップS12で記憶された時刻から時間T1+時間T2だけ前の時刻付近に、シーンチェンジとカットチェンジの両方が検出されたか否かを判定し、検出されたと判定した場合、ステップS15に進む。
【0086】
時間T2も、CM放送の時間であり、15秒、30秒、または60秒のいずれかの時間である。
【0087】
ステップS15において、制御部51は、ステップS12で記録された時刻から時間T1だけ前の時刻、および時間T1+時間T2だけ前の時刻を、CMの開示時刻と判定する。そして制御部51は、検出したCMの開始時刻とその長さ(時間T1、および時間T1+時間T2)を記録部42に出力する。記録部42は、入力される音声信号および映像信号とともに、制御部41からのCMの開始時刻とその長さを記録する。
【0088】
ステップS11,S13,S14で、シーンチェンジとカットチェンジが同じタイミングで検出されていないと判定された場合、またはステップS15でCM開始時刻とその長さが検出された場合、ステップS11戻り、次に入力されるシーンチェンジおよびカットチェンジの検出結果に対して、それ以降の処理が実行される。
【0089】
上述した一連の処理は、ハードウエアにより実現させることもできるが、ソフトウエアにより実現させることもできる。一連の処理をソフトウエアにより実現する場合には、そのソフトウエアを構成するプログラムがコンピュータにインストールされ、そのプログラムがコンピュータで実行されることより、上述した音声信号装置1が機能的に実現される。
【0090】
図10は、上述のような音声信号装置1として機能するコンピュータ101の一実施の形態の構成を示すブロック図である。CPU(Central Processing Unit)111にはバス115を介して入出力インタフェース116が接続されており、CPU111は、入出力インタフェース116を介して、ユーザから、キーボード、マウスなどよりなる入力部118から指令が入力されると、例えば、ROM(Read Only Memory)112、ハードディスク114、またはドライブ120に装着される磁気ディスク131、光ディスク132、光磁気ディスク133、若しくは半導体メモリ134などの記録媒体に格納されているプログラムを、RAM(Random Access Memory)113にロードして実行する。これにより、上述した各種の処理が行われる。さらに、CPU111は、その処理結果を、例えば、入出力インタフェース116を介して、LCD(Liquid Crystal Display)などよりなる出力部117に必要に応じて出力する。なお、プログラムは、ハードディスク114やROM112に予め記憶しておき、コンピュータ101と一体的にユーザに提供したり、磁気ディスク131、光ディスク132、光磁気ディスク133,半導体メモリ134等のパッケージメディアとして提供したり、衛星、ネットワーク等から通信部119を介してハードディスク114に提供することができる。
【0091】
なお、本明細書において、記録媒体により提供されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【0092】
【発明の効果】
第1の本発明によれば、変化点を正確に検出することができる。
【0093】
第2の本発明によれば、変化点に応じた所望の映像および音声を再生または記録することができる。
【0094】
第3の本発明によれば、変化点を正確に検出することができる。
【図面の簡単な説明】
【図1】 本発明を適用した音声信号処理装置の構成例を示すブロック図である。
【図2】図1の音声信号処理装置の動作を説明するフローチャートである。
【図3】スペクトル変化量を説明する図である。
【図4】スペクトル変化量を説明する他の図である。
【図5】スペクトル変化量を説明する他の図である。
【図6】本発明を適用した音声信号処理装置の他の構成例を示すブロック図である。
【図7】本発明を適用した記録再生装置の構成例を示すブロック図である。
【図8】本発明を適用したCM検出装置の構成例を示すブロック図である。
【図9】図8のCM検出装置の動作を説明するフローチャートである。
【図10】パーソナルコンピュータ101の構成例を示すブロック図である。
【符号の説明】
11 スペクトル分解部, 12 振幅検出部, 13 平滑部, 14 記憶部, 15 算出部, 16 シーンチェンジ判定部, 21 スケールファクタ抽出部, 31 映像信号処理部, 32 制御部, 33 音声抽出部,34 画像抽出部, 35 タイムスタンプ生成部, 36 記録部, 37
再生部, 41 制御部, 42 記録部

Claims (15)

  1. 入力音響信号に対して、前記入力音響信号の振幅を抽出する振幅抽出手段と、
    前記振幅抽出手段により抽出された振幅の時間的変化に基づいて、前記入力音響信号の内容の変化点を検出する変化点検出手段と
    を備え、
    前記振幅抽出手段は、前記入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、
    前記変化点検出手段は、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、前記第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる前記係数の値を検出するとともに、帯域毎の、前記第1の信号の平滑されたスペクトル振幅の値と、前記第2の信号の平滑されたスペクトル振幅の値に検出した値の前記係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、
    前記スペクトル変化量が所定の閾値より大きい場合に変化点とする
    ことを特徴とする信号処理装置。
  2. 前記振幅抽出手段は、周波数分解されてスケールファクタとともに符号化された入力音響信号に対しては、前記スケールファクタを前記振幅として抽出する
    ことを特徴とする請求項1に記載の信号処理装置。
  3. 入力音響信号に対して、前記入力音響信号の振幅を抽出する振幅抽出ステップと、
    前記振幅抽出ステップの処理で抽出された振幅の時間的変化に基づいて、前記入力音響信号の内容の変化点を検出する変化点検出ステップと
    を含み、
    前記振幅抽出ステップは、前記入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、
    前記変化点検出ステップは、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、前記第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる前記係数の値を検出するとともに、帯域毎の、前記第1の信号の平滑されたスペクトル振幅の値と、前記第2の信号の平滑されたスペクトル振幅の値に検出した値の前記係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、
    前記スペクトル変化量が所定の閾値より大きい場合に変化点とする
    ことを特徴とする信号処理方法。
  4. 入力音響信号に対して、前記入力音響信号の振幅を抽出する振幅抽出ステップと、
    前記振幅抽出ステップの処理で抽出された振幅の時間的変化に基づいて、前記入力音響信号の内容の変化点を検出する変化点検出ステップと
    を含み、
    前記振幅抽出ステップは、前記入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、
    前記変化点検出ステップは、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、前記第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる前記係数の値を検出するとともに、帯域毎の、前記第1の信号の平滑されたスペクトル振幅の値と、前記第2の信号の平滑されたスペクトル振幅の値に検出した値の前記係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、
    前記スペクトル変化量が所定の閾値より大きい場合に変化点とする
    ことを特徴とするコンピュータが読み取り可能なプログラムが記録されている記録媒体。
  5. 入力音響信号に対して、前記入力音響信号の振幅を抽出する振幅抽出ステップと、
    前記振幅抽出ステップの処理で抽出された振幅の時間的変化に基づいて、前記入力音響信号の内容の変化点を検出する変化点検出ステップと
    を含み、
    前記振幅抽出ステップは、前記入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、
    前記変化点検出ステップは、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、前記第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる前記係数の値を検出するとともに、帯域毎の、前記第1の信号の平滑されたスペクトル振幅の値と、前記第2の信号の平滑されたスペクトル振幅の値に検出した値の前記係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、
    前記スペクトル変化量が所定の閾値より大きい場合に変化点とする
    ことをコンピュータに実行させることを特徴とするプログラム。
  6. 映像音響信号を入力とする信号処理装置において、
    入力音響信号の振幅を抽出し、抽出した前記振幅の時間的変化に基づいて、前記入力音響信号の内容の変化点を検出する音響信号変化点検出手段を備え、
    前記変化点検出手段は、
    前記入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、前記第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる前記係数の値を検出するとともに、帯域毎の、前記第1の信号の平滑されたスペクトル振幅の値と、前記第2の信号の平滑されたスペクトル振幅の値に検出した値の前記係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、
    前記変化量が所定の閾値より大きい場合に変化点とし、
    検出された前記音響信号変化点近傍の映像および音声を再生または記録する
    ことを特徴とする信号処理装置。
  7. 前記映像音響信号は、テレビジョン放送信号であり、前記所定の内容の信号は、コマーシャルメッセージである
    ことを特徴とする請求項6に記載の信号処理装置。
  8. 映像音響信号を入力とする信号処理装置の信号処理方法において、
    入力音響信号の振幅を抽出し、抽出した前記振幅の時間的変化に基づいて、前記入力音響信号の内容の変化点を検出する音響信号変化点検出ステップを含み、
    前記変化点検出ステップは、
    前記入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、前記第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる前記係数の値を検出するとともに、帯域毎の、前記第1の信号の平滑されたスペクトル振幅の値と、前記第2の信号の平滑されたスペクトル振幅の値に検出した値の前記係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、
    前記変化量が所定の閾値より大きい場合に変化点とし、
    検出された前記音響信号変化点近傍の映像および音声を再生または記録する
    ことを特徴とする信号処理方法。
  9. 映像音響信号を入力とする信号処理装置を制御するプロセッサに実行させるプログラムにおいて、
    入力音響信号の振幅を抽出し、抽出した前記振幅の時間的変化に基づいて、前記入力音響信号の内容の変化点を検出する音響信号変化点検出ステップを含み、
    前記変化点検出ステップは、
    前記入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、前記第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる前記係数の値を検出するとともに、帯域毎の、前記第1の信号の平滑されたスペクトル振幅の値と、前記第2の信号の平滑されたスペクトル振幅の値に検出した値の前記係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、
    前記変化量が所定の閾値より大きい場合に変化点とし、
    検出された前記音響信号変化点近傍の映像および音声を再生または記録する
    ことを特徴とするプログラムが記録されている記録媒体。
  10. 映像音響信号を入力とする信号処理装置を制御するプロセッサに実行させるプログラムにおいて、
    入力音響信号の振幅を抽出し、抽出した前記振幅の時間的変化に基づいて、前記入力音響信号の内容の変化点を検出する音響信号変化点検出ステップを含み、
    前記変化点検出ステップは、
    前記入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、前記第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる前記係数の値を検出するとともに、帯域毎の、前記第1の信号の平滑されたスペクトル振幅の値と、前記第2の信号の平滑されたスペクトル振幅の値に検出した値の前記係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、
    前記変化量が所定の閾値より大きい場合に変化点とし、
    検出された前記音響信号変化点近傍の映像および音声を再生または記録する
    ことを特徴とするプログラム。
  11. 映像音響信号を入力とする信号処理装置において、
    入力映像信号の内容の変化点を検出する映像信号変化点検出手段と、
    前記入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、前記第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる前記係数の値を検出するとともに、帯域毎の、前記第1の信号の平滑されたスペクトル振幅の値と、前記第2の信号の平滑されたスペクトル振幅の値に検出した値の前記係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、前記変化量が所定の閾値より大きい場合に変化点として検出する音響信号変化点検出手段と、
    前記検出した入力音響信号の内容の変化点と入力映像信号の内容の変化点がほぼ同じタイミングで検出されたと判定したときに所定の信号内容を検出する検出手段と
    を備えることを特徴とする信号処理装置。
  12. 前記映像音響信号は、テレビジョン放送信号であり、前記所定の内容の信号はコマーシャルメッセージである
    ことを特徴とする請求項11に記載の信号処理装置。
  13. 映像音響信号を入力とする信号処理装置の信号処理方法において、
    入力映像信号の内容の変化点を検出する映像信号変化点検出ステップと、
    前記入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、前記第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる前記係数の値を検出するとともに、帯域毎の、前記第1の信号の平滑されたスペクトル振幅の値と、前記第2の信号の平滑されたスペクトル振幅の値に検出した値の前記係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、前記変化量が所定の閾値より大きい場合に変化点として検出する音響信号変化点検出ステップと、
    前記検出した入力音響信号の内容の変化点と入力映像信号の内容の変化点がほぼ同じタイミングで検出されたと判定したときに所定の信号内容を検出する検出ステップと
    を含むことを特徴とする信号処理方法。
  14. 映像音響信号を入力とする信号処理装置を制御するプロセッサに実行させるプログラムにおいて、
    入力映像信号の内容の変化点を検出する映像信号変化点検出ステップと、
    前記入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、前記第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる前記係数の値を検出するとともに、帯域毎の、前記第1の信号の平滑されたスペクトル振幅の値と、前記第2の信号の平滑されたスペクトル振幅の値に検出した値の前記係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、前記変化量が所定の閾値より大きい場合に変化点として検出する音響信号変化点検出ステップと、
    前記検出した入力音響信号の内容の変化点と入力映像信号の内容の変化点がほぼ同じタイミングで検出されたと判定したときに所定の信号内容を検出する検出ステップと
    を含むことを特徴とするプログラムが記録されている記録媒体。
  15. 映像音響信号を入力とする信号処理装置を制御するプロセッサに実行させるプログラムにおいて、
    入力映像信号の内容の変化点を検出する映像信号変化点検出ステップと、
    前記入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、前記第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる前記係数の値を検出するとともに、帯域毎の、前記第1の信号の平滑されたスペクトル振幅の値と、前記第2の信号の平滑されたスペクトル振幅の値に検出した値の前記係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、前記変化量が所定の閾値より大きい場合に変化点として検出する音響信号変化点検出ステップと、
    前記検出した入力音響信号の内容の変化点と入力映像信号の内容の変化点がほぼ同じタイミングで検出されたと判定したときに所定の信号内容を検出する検出ステップと
    を含むことを特徴とするプログラム。
JP2001216716A 2001-07-17 2001-07-17 信号処理装置および方法、記録媒体、並びにプログラム Expired - Fee Related JP3840928B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2001216716A JP3840928B2 (ja) 2001-07-17 2001-07-17 信号処理装置および方法、記録媒体、並びにプログラム
US10/194,763 US6934462B2 (en) 2001-07-17 2002-07-12 Signal processing apparatus and method, recording medium, and program
US11/194,024 US7865063B2 (en) 2001-07-17 2005-07-28 Signal processing apparatus and method, recording medium, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001216716A JP3840928B2 (ja) 2001-07-17 2001-07-17 信号処理装置および方法、記録媒体、並びにプログラム

Publications (2)

Publication Number Publication Date
JP2003029772A JP2003029772A (ja) 2003-01-31
JP3840928B2 true JP3840928B2 (ja) 2006-11-01

Family

ID=19051157

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001216716A Expired - Fee Related JP3840928B2 (ja) 2001-07-17 2001-07-17 信号処理装置および方法、記録媒体、並びにプログラム

Country Status (2)

Country Link
US (2) US6934462B2 (ja)
JP (1) JP3840928B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2150046A1 (en) 2008-07-31 2010-02-03 Fujitsu Limited Video reproducing device and video reproducing method
EP2150040A1 (en) 2008-07-31 2010-02-03 Fujitsu Limited Video reproducing device and video reproducing method

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4036328B2 (ja) * 2002-09-30 2008-01-23 株式会社Kddi研究所 動画像データのシーン分類装置
JP2005101931A (ja) * 2003-09-25 2005-04-14 Fuji Photo Film Co Ltd 画像プリント装置
JP4424590B2 (ja) * 2004-03-05 2010-03-03 株式会社Kddi研究所 スポーツ映像の分類装置
WO2007017970A1 (ja) * 2005-08-11 2007-02-15 Mitsubishi Denki Kabushiki Kaisha 映像記録装置、シーンチェンジ抽出方法、及び映像音声記録装置
JP4862136B2 (ja) * 2006-12-08 2012-01-25 株式会社Jvcケンウッド 音声信号処理装置
JP2010074823A (ja) * 2008-08-22 2010-04-02 Panasonic Corp 録画編集装置
JP5293329B2 (ja) 2009-03-26 2013-09-18 富士通株式会社 音声信号評価プログラム、音声信号評価装置、音声信号評価方法
WO2010140355A1 (ja) * 2009-06-04 2010-12-09 パナソニック株式会社 音響信号処理装置および方法
US9860604B2 (en) * 2011-11-23 2018-01-02 Oath Inc. Systems and methods for internet video delivery
US20140184917A1 (en) * 2012-12-31 2014-07-03 Sling Media Pvt Ltd Automated channel switching
EP2965231A1 (en) * 2013-03-08 2016-01-13 Thomson Licensing Method and apparatus for automatic video segmentation
US10129586B2 (en) * 2016-12-19 2018-11-13 Google Llc Detecting and isolating television program content from recordings of television airings

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5122886A (en) * 1989-06-19 1992-06-16 Pioneer Electronic Corporation Selective information playback from recording medium based on user input content codes
JP3823333B2 (ja) * 1995-02-21 2006-09-20 株式会社日立製作所 動画像の変化点検出方法、動画像の変化点検出装置、動画像の変化点検出システム
GB9705999D0 (en) * 1997-03-22 1997-05-07 Philips Electronics Nv Video signal analysis and storage
WO2001031502A1 (fr) * 1999-10-27 2001-05-03 Fujitsu Limited Dispositif et procede de classement et de rangement d'informations multimedia

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2150046A1 (en) 2008-07-31 2010-02-03 Fujitsu Limited Video reproducing device and video reproducing method
EP2150040A1 (en) 2008-07-31 2010-02-03 Fujitsu Limited Video reproducing device and video reproducing method

Also Published As

Publication number Publication date
US7865063B2 (en) 2011-01-04
US6934462B2 (en) 2005-08-23
JP2003029772A (ja) 2003-01-31
US20030091323A1 (en) 2003-05-15
US20050267740A1 (en) 2005-12-01

Similar Documents

Publication Publication Date Title
US7266287B2 (en) Using background audio change detection for segmenting video
US7865063B2 (en) Signal processing apparatus and method, recording medium, and program
US6748360B2 (en) System for selling a product utilizing audio content identification
US7386357B2 (en) System and method for generating an audio thumbnail of an audio track
US5641927A (en) Autokeying for musical accompaniment playing apparatus
JP3891111B2 (ja) 音響信号処理装置及び方法、信号記録装置及び方法、並びにプログラム
US8682132B2 (en) Method and device for detecting music segment, and method and device for recording data
US20020021759A1 (en) Apparatus and method for processing signals
US8457322B2 (en) Information processing apparatus, information processing method, and program
JPH10224722A (ja) コマーシャル検出装置及び検出方法
US20060285818A1 (en) Information processing apparatus, method, and program
US7418393B2 (en) Data reproduction device, method thereof and storage medium
JP2006301134A (ja) 音楽検出装置、音楽検出方法及び録音再生装置
EP1784011A1 (en) Information signal processing method, information signal processing device, and computer program recording medium
JP2006323246A (ja) 音響信号に対する情報の埋め込み装置、音響信号からの情報の抽出装置、および音響信号再生装置
JP4432823B2 (ja) 特定条件区間検出装置および特定条件区間検出方法
US20090269029A1 (en) Recording/reproducing device
US8234278B2 (en) Information processing device, information processing method, and program therefor
EP2157580A1 (en) Video editing system
JP2002149672A (ja) Avコンテンツ自動要約システム及びavコンテンツ自動要約方式
JP3124239B2 (ja) 映像情報検出装置
JP4212253B2 (ja) 話速変換装置
JP2001056700A (ja) 音声記録再生装置
JP2006050045A (ja) 動画像データ編集装置及び動画像データ編集方法
JP2007049421A (ja) 情報処理装置および方法、並びにプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050203

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050404

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060210

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060412

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20060510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060718

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060731

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100818

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110818

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110818

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120818

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120818

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130818

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees