JP3840928B2 - 信号処理装置および方法、記録媒体、並びにプログラム - Google Patents
信号処理装置および方法、記録媒体、並びにプログラム Download PDFInfo
- Publication number
- JP3840928B2 JP3840928B2 JP2001216716A JP2001216716A JP3840928B2 JP 3840928 B2 JP3840928 B2 JP 3840928B2 JP 2001216716 A JP2001216716 A JP 2001216716A JP 2001216716 A JP2001216716 A JP 2001216716A JP 3840928 B2 JP3840928 B2 JP 3840928B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- value
- amplitude
- change
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title description 23
- 230000003595 spectral effect Effects 0.000 claims abstract description 96
- 238000001514 detection method Methods 0.000 claims abstract description 44
- 238000009499 grossing Methods 0.000 claims abstract description 23
- 238000001228 spectrum Methods 0.000 claims description 156
- 230000005236 sound signal Effects 0.000 claims description 57
- 238000000605 extraction Methods 0.000 claims description 30
- 230000002123 temporal effect Effects 0.000 claims description 18
- 238000003672 processing method Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 2
- 238000000354 decomposition reaction Methods 0.000 abstract description 8
- 238000005070 sampling Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 3
- 101000969688 Homo sapiens Macrophage-expressed gene 1 protein Proteins 0.000 description 2
- 102100021285 Macrophage-expressed gene 1 protein Human genes 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/426—Internal components of the client ; Characteristics thereof
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
- H04N21/43072—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/433—Content storage operation, e.g. storage operation in response to a pause request, caching operations
- H04N21/4334—Recording operations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/812—Monomedia components thereof involving advertisement data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/04—Synchronising
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/14—Picture signal circuitry for video frequency region
- H04N5/147—Scene change detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B2220/00—Record carriers by type
- G11B2220/20—Disc-shaped record carriers
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B2220/00—Record carriers by type
- G11B2220/20—Disc-shaped record carriers
- G11B2220/25—Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
- G11B2220/2525—Magneto-optical [MO] discs
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B2220/00—Record carriers by type
- G11B2220/90—Tape-like record carriers
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/102—Programmed access in sequence to addressed parts of tracks of operating record carriers
- G11B27/105—Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/102—Programmed access in sequence to addressed parts of tracks of operating record carriers
- G11B27/107—Programmed access in sequence to addressed parts of tracks of operating record carriers of operating tapes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/91—Television signal processing therefor
- H04N5/92—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N5/9201—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Television Signal Processing For Recording (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【発明の属する技術分野】
本発明は、信号処理装置および方法、記録媒体、並びにプログラムに関し、特に、音響の変換点を検出することができるようにした信号処理装置および方法、記録媒体、並びにプログラムに関する。
【0002】
【従来の技術】
テレビジョン放送、ラジオ放送、ビデオテープ、またはビデオディスク等から得られる映像音声信号に対して、編集、インデクシング、検索、または要約を行う場合、コンテンツの内容や場面が切り替わる点(シーチェンジ)が利用される。
【0003】
シーンチェンジの検出は、例えば、映像信号が大きく変化する場面(カットチェンジ)を検出し、それをシーンチェンジとして代用することで行われる。しかしながら、同一のシーン内には、複数のカットチェンジが存在する場合もあり、このときこの方法では、必要以上にシーンチェンジが検出されてしまう。
【0004】
なお、特開平5-37893号公報には、映像信号のフレーム間の差分を検出し、その時点の静止映像を順次記録、再生することでテレビジョン信号の要約の記録再生を行う方法が開示されている。
【0005】
また、特開平2000-5111743号公報には、一定区間の音声信号の最小レベルを、背景音声レベルとし、その背景音声レベルの変化が大きい時点をシーンチェンジとする方法が開示されている。
【0006】
しなしながら、背景音声とそうでない音声とが明確に区別されていない場合があること、背景音声レベルの変化を伴わないシーンチェンジが存在すること、そして同一シーン内で背景音声レベルが変化する場合があること等の理由から、この方法でも、シーンチェンジを正確に検出することができない。
【0007】
さらに、無音区間を、シーンチェンジとして検出する方法も考えられているが、無音区間が存在せずに、急激に音響信号の切り換えが行われる場合もあるので、この方法でも、シーンチェンジを正確に検出することはできない。
【0008】
【発明が解決しようとする課題】
すなわち、従来においては、シーンチェンジを正確に検出することができないという課題があった。
【0009】
本発明はこのような状況に鑑みてなされたものであり、シーンチェンジをより正確に検出することができるようにするものである。
【0010】
【課題を解決するための手段】
本発明の第1の信号処理装置は、入力音響信号に対して、入力音響信号の振幅を抽出する振幅抽出手段と、振幅抽出手段により抽出された振幅の時間的変化に基づいて、入力音響信号の内容の変化点を検出する変化点検出手段とを備え、振幅抽出手段は、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、変化点検出手段は、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値を検出するとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、スペクトル変化量が所定の閾値より大きい場合に変化点とすることを特徴とする。
【0011】
振幅抽出手段は、周波数分解されてスケールファクタとともに符号化された入力音響信号に対しては、スケールファクタを振幅として抽出することができる。
【0012】
本発明の第1の信号処理方法は、入力音響信号に対して、入力音響信号の振幅を抽出する振幅抽出ステップと、振幅抽出ステップの処理で抽出された振幅の時間的変化に基づいて、入力音響信号の内容の変化点を検出する変化点検出ステップとを含み、振幅抽出ステップは、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、変化点検出ステップは、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値を検出するとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、スペクトル変化量が所定の閾値より大きい場合に変化点とすることを特徴とする。
【0013】
本発明の第1の記録媒体のプログラムは、入力音響信号に対して、入力音響信号の振幅を抽出する振幅抽出ステップと、振幅抽出ステップの処理で抽出された振幅の時間的変化に基づいて、入力音響信号の内容の変化点を検出する変化点検出ステップとを含み、振幅抽出ステップは、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、変化点検出ステップは、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値を検出するとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、
スペクトル変化量が所定の閾値より大きい場合に変化点とすることを特徴とする。
【0014】
本発明の第1のプログラムは、入力音響信号に対して、入力音響信号の振幅を抽出する振幅抽出ステップと、振幅抽出ステップの処理で抽出された振幅の時間的変化に基づいて、入力音響信号の内容の変化点を検出する変化点検出ステップとを含み、振幅抽出ステップは、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、変化点検出ステップは、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値を検出するとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、スペクトル変化量が所定の閾値より大きい場合に変化点とすることをコンピュータに実行させることを特徴とする。
【0015】
本発明の第1の信号処理装置および方法、並びにプログラムにおいては、入力音響信号の振幅が抽出され、抽出された振幅の時間的変化に基づいて、入力音響信号の内容の変化点が検出され、その際、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅が抽出され、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値が検出されるとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出された値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量が算出され、スペクトル変化量が所定の閾値より大きい場合に変化点とされる。
【0016】
本発明の第2の信号処理装置は、入力音響信号の振幅を抽出し、抽出した振幅の時間的変化に基づいて、入力音響信号の内容の変化点を検出する音響信号変化点検出手段を備え、変化点検出手段は、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値を検出するとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、変化量が所定の閾値より大きい場合に変化点とし、検出された音響信号変化点近傍の映像および音声を再生または記録することを特徴とする。
【0017】
映像音響信号は、テレビジョン放送信号であり、所定の内容の信号は、コマーシャルメッセージであるようにすることができる。
【0018】
本発明の第2の信号処理方法は、入力音響信号の振幅を抽出し、抽出した振幅の時間的変化に基づいて、入力音響信号の内容の変化点を検出する音響信号変化点検出ステップを含み、変化点検出ステップは、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値を検出するとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、変化量が所定の閾値より大きい場合に変化点とし、検出された音響信号変化点近傍の映像および音声を再生または記録することを特徴とする。
【0019】
本発明の第2の記録媒体のプログラムは、入力音響信号の振幅を抽出し、抽出した振幅の時間的変化に基づいて、入力音響信号の内容の変化点を検出する音響信号変化点検出ステップを含み、変化点検出ステップは、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値を検出するとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、変化量が所定の閾値より大きい場合に変化点とし、検出された音響信号変化点近傍の映像および音声を再生または記録することを特徴とする。
【0020】
本発明の第2のプログラムは、入力音響信号の振幅を抽出し、抽出した振幅の時間的変化に基づいて、入力音響信号の内容の変化点を検出する音響信号変化点検出ステップを含み、変化点検出ステップは、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値を検出するとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、変化量が所定の閾値より大きい場合に変化点とし、検出された音響信号変化点近傍の映像および音声を再生または記録することを特徴とする。
【0021】
本発明の第2の信号処理装置および方法、並びにプログラムにおいては、入力音響信号の振幅が抽出され、抽出された振幅の時間的変化に基づいて、入力音響信号の内容の変化点が検出され、その際、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅が抽出され、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値が検出されるとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量が算出され、変化量が所定の閾値より大きい場合に変化点とされ、検出された音響信号変化点近傍の映像および音声が再生または記録される。
【0022】
本発明の第3の信号処理装置は、入力映像信号の内容の変化点を検出する映像信号変化点検出手段と、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値を検出するとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、変化量が所定の閾値より大きい場合に変化点として検出する音響信号変化点検出手段と、検出した入力音響信号の内容の変化点と入力映像信号の内容の変化点がほぼ同じタイミングで検出されたと判定したときに所定の信号内容を検出する検出手段とを備えることを特徴とする。
【0023】
映像音響信号は、テレビジョン放送信号であり、所定の内容の信号はコマーシャルメッセージであるようにすることができる。
【0024】
本発明の第3の信号処理方法は、入力映像信号の内容の変化点を検出する映像信号変化点検出ステップと、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値を検出するとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、変化量が所定の閾値より大きい場合に変化点として検出する音響信号変化点検出ステップと、検出した入力音響信号の内容の変化点と入力映像信号の内容の変化点がほぼ同じタイミングで検出されたと判定したときに所定の信号内容を検出する検出ステップとを含むことを特徴とする。
【0025】
本発明の第3の記録媒体のプログラムは、入力映像信号の内容の変化点を検出する映像信号変化点検出ステップと、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値を検出するとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、変化量が所定の閾値より大きい場合に変化点として検出する音響信号変化点検出ステップと、検出した入力音響信号の内容の変化点と入力映像信号の内容の変化点がほぼ同じタイミングで検出されたと判定したときに所定の信号内容を検出する検出ステップとを含むことを特徴とする。
【0026】
本発明の第3のプログラムは、入力映像信号の内容の変化点を検出する映像信号変化点検出ステップと、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値を検出するとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、変化量が所定の閾値より大きい場合に変化点として検出する音響信号変化点検出ステップと、検出した入力音響信号の内容の変化点と入力映像信号の内容の変化点がほぼ同じタイミングで検出されたと判定したときに所定の信号内容を検出する検出ステップとを含むことを特徴とする。
【0027】
本発明の第3の信号処理装置および方法、並びにプログラムにおいては、入力映像信号の内容の変化点が検出され、入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅が抽出され、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる係数の値が検出されるとともに、帯域毎の、第1の信号の平滑されたスペクトル振幅の値と、第2の信号の平滑されたスペクトル振幅の値に検出した値の係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量が算出され、変化量が所定の閾値より大きい場合に変化点として検出され、検出された入力音響信号の内容の変化点と入力映像信号の内容の変化点がほぼ同じタイミングで検出されたと判定したときに所定の信号内容が検出される。
【0031】
【発明の実施の形態】
図1は、本発明の音声信号処理装置1の構成例を示している。この場合、音声信号処理装置1には、コンテンツを構成する映像音声信号のうちの音声信号が入力されるものとする。
【0032】
スペクトル分解部11は、バンドパスフィルタ群や高速フーリエ変換器等により構成されており、入力される音声信号を、複数の周波数帯域の信号に分解する。複数の周波数帯域に分解された信号(以下、サブバンド信号と称する)は、振幅検出部12に供給される。
【0033】
振幅検出部12は、スペクトル分解部11からの各サブバンド信号の振幅を検出し、その検出結果を平滑部13に供給する。
【0034】
平滑部13は、メジアンフィルタ、モードフィルタ、最小値フィルタなどの平滑フィルタにより構成され、振幅検出部12から供給された各サブバンド信号の振幅の急激な変動を平滑化する。平滑部13は、平滑したサブバンド信号の振幅(以下、平滑化バンドパス振幅と称する)を、平滑時間に併せてサンプリングし、そのサンプリング結果を、記憶部14および算出部15に出力する。
【0035】
なお、平滑部13は、例えば、所定の区間(数秒間)のサブバンド信号の振幅を平均することで、サブバンド信号の振幅を平滑化するようにすることもできる。
【0036】
記憶部14は、1サンプリング時間または数サンプリング時間に渡る平滑化サブバンド振幅を記憶する。
【0037】
算出部15は、平滑部13および記憶部14から供給される平滑化サブバンド振幅を利用して、式(1)を解き、スペクトル変化量Dを算出する。
【0038】
【数1】
【0039】
式中、nは、サンプリング時刻を表し、kは、サブバンド信号の周波数帯域を表し、Kは、サブバンド信号の数を表し、そしてF(n,k)は、kで表される周波数帯域のサンプリング時刻nの平滑化サブバンド振幅の値を表す。
【0040】
すなわち、予め決められた複数の値がwに順に設定されて、式(1)が演算され、その演算結果が最小となるwが検出される。そしてそのときの演算結果が、スペクトル変化量Dとなる。従って、スペクトル変化量Dは、時刻nと、時刻n−1のスペクトルの差分エネルギーを、現在のスペクトルエネルギーで正規化した値(0乃至1)である。
【0041】
なお、スペクトル変化量Dは、実際は計算を簡単にするために、式(1)と等値の式(2)を演算することで求められる。式中、Saaは式(3)、Sbbは式(4)、そしてSabは式(5)で求められる。
【0042】
【数2】
【数3】
【0043】
算出部15は、算出したスペクトル変化量Dを、適宜、シーンチェンジ判定部16に出力する。
【0044】
シーンチェンジ判定部16は、算出部15からのスペクトル変化量Dが予め設定された閾値より大きいか否かを判定し、閾値より大きいと判定した場合、例えば、スペクトル変化量Dが得られた音声信号の位置(時刻)をシーンチェンジの検出信号として出力する。
【0045】
なお、検出されたシーンチェンジが隣接して複数個存在する場合、それらのうちの1つをシーンチェンジとするようにすることもできる。
【0046】
次に、音声信号処理装置1の動作を、図2のフローチャートを参照して説明する。なお、ここでは、図3(A)に示すテレビジョン放送の音声信号からシーンチェンジを検出するものとする。
【0047】
ステップS1において、スペクトル分解部11は、入力されたテレビジョン放送の音声信号を、8個の周波数帯域のサブバンド信号に分解する。ステップS2において、振幅検出部12は、スペクトル分解部11からの各サブバンド信号の振幅を検出し、検出結果を平滑部13に出力する。
【0048】
次に、ステップS3において、平滑部13は、各サブバンド信号の振幅を、図3(D)に示すように平滑化するとともに、平滑時間に合わせてサンプリングを行い、そのサンプリング結果を、記憶部14および算出部15に出力する。図3(D)には、各サブバンド信号の平滑化サブバンド振幅が示されている。なお、図中、縦軸に示されている数値は、各周波数帯域の中心周波数である。
【0049】
次に、ステップS4において、算出部15は、平滑部13からの平滑化サブバンド振幅の値F(n,k)と、記憶部14からの、それより1つ前にサンプリングされた平滑化サブバンド振幅の値F(n−1,k)を利用して式(2)を解き、スペクトル変化量Dを算出する。
【0050】
図3(A)において、放送内容がCMから番組本編に切り替わる、時刻10秒付近では、その時間帯の各平滑化サブバンド振幅を拡張した図4に示すように、変化の割合が各平滑化サブバンド振幅毎で異なるので(高域側での増加率は大きいが、低域側での増加率は小さいので)、図3(C)に示すように、このとき大きなスペクトル変化量Dが算出される。
【0051】
また図3(A)において、ガラスの破砕音が発生する、時刻13秒付近、および手を叩した音が発生する時刻29秒付近においても、大きなスペクトル変化量Dが算出される。
【0052】
ステップS5において、シーンチェンジ判定部16は、算出部15により算出されたスペクトル変化量Dが、所定の閾値より大きいか否かを判定し、ステップS6において、その判定結果に基づく処理を行う。
【0053】
例えば、スペクトル変化量Dが閾値より大きいと判定された場合、シーンチェンジ判定部16は、シーンチェンジの検出信号を、外部の装置に出力する。
【0054】
その後、処理は終了し、次に入力される音声信号に対してステップS1乃至ステップS6の処理が同様に行われる。
【0055】
すなわち、本発明によれば、図3のテレビジョン放送からは、CMから番組に切り替わったとき、ガラスの破砕音が発生したとき、また手を叩いた音が発生したときを、シーンチェンジとして検出することができる。
【0056】
それに対して、映像信号を利用した従来の方法では、図3(B)の縦方向の線で示されるように、同一シーン(例えば、1つのCM)から複数のカットチェンジ(シーンチェンジ)が検出されてしまう。
【0057】
図5は、他のテレビジョン放送の音声信号からシーンチェンジを検出した場合の例を表している。
【0058】
この場合においても、本発明によれば、図5(C)に示すように、図5(A)中上向きの矢印で示されている、音声が切り替わるとき、CM1からCM2に切り替わるとき、CM2から番組に切り換わるとき、大きなスペクトル変化量Dが算出されるので、その時点をシーンチェンジとして検出することができる。それに対して映像信号を利用した従来の方法では、図5(B)に示すように、同一シーンから複数のカットチェンジが検出される。なお、図5(E)は、音声信号の波形を表している。
【0059】
図6は、音声信号処理装置1の他の構成例を表している。この音声信号処理装置には、図1のスペクトル分解部11および振幅検出部12に代えて、スケールファクタ抽出部21が設けられている。他の部分は、図1における場合と同様である。
【0060】
この例の場合、音声信号処理装置1には、MPEG1方式など、周波数分解を伴う符号化方法で符号化された音声信号が入力される。通常、MPEG1方式で符号化される場合、周波数分解された信号は、符号化効率を向上させるために正規化され、その正規化のために算出された拡大縮小率(スケールファクタ)が音声信号とともに符号化されるようになされている。
【0061】
すなわち、スケールファクタ抽出部21は、入力された符号化信号から各サブバンド信号のスケールファクタを抽出し、それを平滑部13に供給する。
【0062】
平滑部13は、スケールファクタ抽出部21から供給されたスケールファクタの急激な変動を平滑化する。平滑部13は、平滑化したスケールファクタを、平滑時間に合わせてサンプリングし、そのサンプリング結果を、記憶部14および算出部15に出力する。
【0063】
算出部15は、図1における場合と同様に、平滑部13および記憶部14からのサンプリング値に基づいて式(2)を演算してスペクトル変化量Dを算出し、シーンチェンジ判定部16は、スペクトル変化量Dに基づいてシーンチェンジを検出する。
【0064】
スケールファクタは、各周波数帯域のフレーム内の平均振幅と概略比例関係にあるので、このようにスケールファクタを利用してシーンチェンジを検出することができる。すなわち、この場合、符号化信号を復号することなく、シーンチェンジを検出することができる。
【0065】
図7は、音声信号処理装置1を利用した記録再生装置の構成例を示している。この装置は、コンテンツを構成する映像音声信号から代表画像や代表音声を記録再生することができる。すなわち、ユーザは、例えば、この装置に記録された代表画像または代表音声を視聴することで、コンテンツの内容を容易に把握することができる。またユーザは、この装置に記録された画像や音声をコンテンツの頭出しのインデックスとして利用し、迅速に頭出しを行うこともできる。
【0066】
信号処理装置1は、上述したように、入力された音声信号のスペクトル変化量Dに基づいてシーンチェンジを検出し、その検出結果を、制御部32に出力する。
【0067】
映像信号処理部31は、入力される映像信号が大きく変化する部分を検出し、すなわち、カットチェンジを検出し、その検出結果を、制御部32に出力する。なお、映像信号処理部31は、例えば、特開平5-37893号公報に開示されている技術を利用してカットチェンジを検出する。
【0068】
制御部32は、音声信号処理装置1からの検出結果および映像信号処理部31からの検出結果に基づいて、代表映像および代表音声を決定する。
【0069】
例えば、制御部32は、音声信号処理装置1または映像信号処理部31のいずれか一方で、シーンチェンジ(カットチェンジ)が検出されたとき、または両者においてほぼ同じタイミングで検出されたとき、そのシーンチェンジに対応する画像および音声を代表画像および代表音声とする。
【0070】
制御部32は、代表画像および代表音声を決定したとき、それらの画像音声の開始時刻とその長さを、音声抽出部33、画像抽出部34、およびタイムスタンプ生成部35にそれぞれ出力する。
【0071】
音声抽出部33は、入力される音声信号から、制御部32からの情報に対応する音声を抽出し、記録部36に出力する。画像抽出部34は、入力される映像信号から、制御部32からの情報に対応する画像を抽出し、記録部36に出力する。
【0072】
タイムスタンプ生成部35は、制御部32からの情報に基づいて、音声抽出部33により抽出された音声信号および画像抽出部34により抽出された映像信号を適切に再生させるためのタイムスタンプを生成し、記録部36に出力する。
【0073】
記録部36は、例えば、磁気テープ、磁気ディスク、光ディスク、または光磁気ディスク等を記録媒体として用い、音声抽出部33および画像抽出部34からの音声信号および映像信号を、タイムスタンプ生成部35からのタイムスタンプと対応させて記録する。
【0074】
再生部37は、必要に応じて記録部36に記録されている音声(代表音声)および画像(代表画像)を再生する。
【0075】
図8は、音声信号処理装置1を利用したCM検出装置の構成例を示している。この装置は、テレビジョン放送の番組本編に付加されるコマーシャルメッセージ(CM)を検出することができる。
【0076】
音声信号処理装置1は、上述したように、入力されるテレビジョン放送の音声信号のスペクトル変化量Dに基づいてシーンチェンジを検出し、その検出結果を制御部41に出力する。
【0077】
映像信号処理部31(図7の記録再生装置の映像信号処理部31と同じもの)は、入力されたテレビジョン放送の映像信号からカットチェンジを検出し、その検出結果を制御部41に出力する。
【0078】
制御部41は、信号処理装置1および映像処理部31からの検出結果に基づいてCMの開始時刻と長さを検出し、記録部42に出力する。
【0079】
記録部42は、入力される音声信号および映像信号とともに、制御部41からのCMの開始時刻と長さを記録する。
【0080】
次に、CM検出装置の制御部41の動作を、図9のフローチャートを参照して説明する。
【0081】
ステップS11において、制御部41は、音声信号処理装置1および映像信号処理部31からの検出結果に基づいて、音響的なシーンチェンジと映像のカットチェンジの両方が同じタイミングで(ほぼ同一時刻に)検出されたか否かを判定し、同じタイミングで検出されたと判定した場合、ステップS12に進み、そのタイミングに対応する時刻を内蔵するメモリに記憶させる。
【0082】
次に、ステップS13において、制御部41は、ステップS12で記憶された時刻から時間T1だけ前の時刻付近に、シーンチェンジとカットチェンジの両方が検出されていたか否かを判定し、検出されていたと判定した場合、ステップS14に進む。
【0083】
なお、同じタイミングでシーンチェンジとカットチェンジの両方が検出されたときの時刻は、以前行われたステップS12の処理でメモリに記録されているので、制御部41は、メモリの内容を参照してステップS13での判定を行う。
【0084】
また、時間T1は、CMの放送時間である。テレビジョン放送されるCMは、放送者の指定する規格に基づいて制作されるため、その時間長はいくつかに限定されている。例えば、日本国内においては、特殊な例を除くほぼ全てのCMが、15秒、30秒、または60秒の長さで制作されている。すなわち、時間T1は、それらの時間のいずれかの時間とされる。
【0085】
ステップS14において、制御部41は、ステップS12で記憶された時刻から時間T1+時間T2だけ前の時刻付近に、シーンチェンジとカットチェンジの両方が検出されたか否かを判定し、検出されたと判定した場合、ステップS15に進む。
【0086】
時間T2も、CM放送の時間であり、15秒、30秒、または60秒のいずれかの時間である。
【0087】
ステップS15において、制御部51は、ステップS12で記録された時刻から時間T1だけ前の時刻、および時間T1+時間T2だけ前の時刻を、CMの開示時刻と判定する。そして制御部51は、検出したCMの開始時刻とその長さ(時間T1、および時間T1+時間T2)を記録部42に出力する。記録部42は、入力される音声信号および映像信号とともに、制御部41からのCMの開始時刻とその長さを記録する。
【0088】
ステップS11,S13,S14で、シーンチェンジとカットチェンジが同じタイミングで検出されていないと判定された場合、またはステップS15でCM開始時刻とその長さが検出された場合、ステップS11戻り、次に入力されるシーンチェンジおよびカットチェンジの検出結果に対して、それ以降の処理が実行される。
【0089】
上述した一連の処理は、ハードウエアにより実現させることもできるが、ソフトウエアにより実現させることもできる。一連の処理をソフトウエアにより実現する場合には、そのソフトウエアを構成するプログラムがコンピュータにインストールされ、そのプログラムがコンピュータで実行されることより、上述した音声信号装置1が機能的に実現される。
【0090】
図10は、上述のような音声信号装置1として機能するコンピュータ101の一実施の形態の構成を示すブロック図である。CPU(Central Processing Unit)111にはバス115を介して入出力インタフェース116が接続されており、CPU111は、入出力インタフェース116を介して、ユーザから、キーボード、マウスなどよりなる入力部118から指令が入力されると、例えば、ROM(Read Only Memory)112、ハードディスク114、またはドライブ120に装着される磁気ディスク131、光ディスク132、光磁気ディスク133、若しくは半導体メモリ134などの記録媒体に格納されているプログラムを、RAM(Random Access Memory)113にロードして実行する。これにより、上述した各種の処理が行われる。さらに、CPU111は、その処理結果を、例えば、入出力インタフェース116を介して、LCD(Liquid Crystal Display)などよりなる出力部117に必要に応じて出力する。なお、プログラムは、ハードディスク114やROM112に予め記憶しておき、コンピュータ101と一体的にユーザに提供したり、磁気ディスク131、光ディスク132、光磁気ディスク133,半導体メモリ134等のパッケージメディアとして提供したり、衛星、ネットワーク等から通信部119を介してハードディスク114に提供することができる。
【0091】
なお、本明細書において、記録媒体により提供されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【0092】
【発明の効果】
第1の本発明によれば、変化点を正確に検出することができる。
【0093】
第2の本発明によれば、変化点に応じた所望の映像および音声を再生または記録することができる。
【0094】
第3の本発明によれば、変化点を正確に検出することができる。
【図面の簡単な説明】
【図1】 本発明を適用した音声信号処理装置の構成例を示すブロック図である。
【図2】図1の音声信号処理装置の動作を説明するフローチャートである。
【図3】スペクトル変化量を説明する図である。
【図4】スペクトル変化量を説明する他の図である。
【図5】スペクトル変化量を説明する他の図である。
【図6】本発明を適用した音声信号処理装置の他の構成例を示すブロック図である。
【図7】本発明を適用した記録再生装置の構成例を示すブロック図である。
【図8】本発明を適用したCM検出装置の構成例を示すブロック図である。
【図9】図8のCM検出装置の動作を説明するフローチャートである。
【図10】パーソナルコンピュータ101の構成例を示すブロック図である。
【符号の説明】
11 スペクトル分解部, 12 振幅検出部, 13 平滑部, 14 記憶部, 15 算出部, 16 シーンチェンジ判定部, 21 スケールファクタ抽出部, 31 映像信号処理部, 32 制御部, 33 音声抽出部,34 画像抽出部, 35 タイムスタンプ生成部, 36 記録部, 37
再生部, 41 制御部, 42 記録部
Claims (15)
- 入力音響信号に対して、前記入力音響信号の振幅を抽出する振幅抽出手段と、
前記振幅抽出手段により抽出された振幅の時間的変化に基づいて、前記入力音響信号の内容の変化点を検出する変化点検出手段と
を備え、
前記振幅抽出手段は、前記入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、
前記変化点検出手段は、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、前記第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる前記係数の値を検出するとともに、帯域毎の、前記第1の信号の平滑されたスペクトル振幅の値と、前記第2の信号の平滑されたスペクトル振幅の値に検出した値の前記係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、
前記スペクトル変化量が所定の閾値より大きい場合に変化点とする
ことを特徴とする信号処理装置。 - 前記振幅抽出手段は、周波数分解されてスケールファクタとともに符号化された入力音響信号に対しては、前記スケールファクタを前記振幅として抽出する
ことを特徴とする請求項1に記載の信号処理装置。 - 入力音響信号に対して、前記入力音響信号の振幅を抽出する振幅抽出ステップと、
前記振幅抽出ステップの処理で抽出された振幅の時間的変化に基づいて、前記入力音響信号の内容の変化点を検出する変化点検出ステップと
を含み、
前記振幅抽出ステップは、前記入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、
前記変化点検出ステップは、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、前記第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる前記係数の値を検出するとともに、帯域毎の、前記第1の信号の平滑されたスペクトル振幅の値と、前記第2の信号の平滑されたスペクトル振幅の値に検出した値の前記係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、
前記スペクトル変化量が所定の閾値より大きい場合に変化点とする
ことを特徴とする信号処理方法。 - 入力音響信号に対して、前記入力音響信号の振幅を抽出する振幅抽出ステップと、
前記振幅抽出ステップの処理で抽出された振幅の時間的変化に基づいて、前記入力音響信号の内容の変化点を検出する変化点検出ステップと
を含み、
前記振幅抽出ステップは、前記入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、
前記変化点検出ステップは、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、前記第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる前記係数の値を検出するとともに、帯域毎の、前記第1の信号の平滑されたスペクトル振幅の値と、前記第2の信号の平滑されたスペクトル振幅の値に検出した値の前記係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、
前記スペクトル変化量が所定の閾値より大きい場合に変化点とする
ことを特徴とするコンピュータが読み取り可能なプログラムが記録されている記録媒体。 - 入力音響信号に対して、前記入力音響信号の振幅を抽出する振幅抽出ステップと、
前記振幅抽出ステップの処理で抽出された振幅の時間的変化に基づいて、前記入力音響信号の内容の変化点を検出する変化点検出ステップと
を含み、
前記振幅抽出ステップは、前記入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、
前記変化点検出ステップは、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、前記第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる前記係数の値を検出するとともに、帯域毎の、前記第1の信号の平滑されたスペクトル振幅の値と、前記第2の信号の平滑されたスペクトル振幅の値に検出した値の前記係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、
前記スペクトル変化量が所定の閾値より大きい場合に変化点とする
ことをコンピュータに実行させることを特徴とするプログラム。 - 映像音響信号を入力とする信号処理装置において、
入力音響信号の振幅を抽出し、抽出した前記振幅の時間的変化に基づいて、前記入力音響信号の内容の変化点を検出する音響信号変化点検出手段を備え、
前記変化点検出手段は、
前記入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、前記第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる前記係数の値を検出するとともに、帯域毎の、前記第1の信号の平滑されたスペクトル振幅の値と、前記第2の信号の平滑されたスペクトル振幅の値に検出した値の前記係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、
前記変化量が所定の閾値より大きい場合に変化点とし、
検出された前記音響信号変化点近傍の映像および音声を再生または記録する
ことを特徴とする信号処理装置。 - 前記映像音響信号は、テレビジョン放送信号であり、前記所定の内容の信号は、コマーシャルメッセージである
ことを特徴とする請求項6に記載の信号処理装置。 - 映像音響信号を入力とする信号処理装置の信号処理方法において、
入力音響信号の振幅を抽出し、抽出した前記振幅の時間的変化に基づいて、前記入力音響信号の内容の変化点を検出する音響信号変化点検出ステップを含み、
前記変化点検出ステップは、
前記入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、前記第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる前記係数の値を検出するとともに、帯域毎の、前記第1の信号の平滑されたスペクトル振幅の値と、前記第2の信号の平滑されたスペクトル振幅の値に検出した値の前記係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、
前記変化量が所定の閾値より大きい場合に変化点とし、
検出された前記音響信号変化点近傍の映像および音声を再生または記録する
ことを特徴とする信号処理方法。 - 映像音響信号を入力とする信号処理装置を制御するプロセッサに実行させるプログラムにおいて、
入力音響信号の振幅を抽出し、抽出した前記振幅の時間的変化に基づいて、前記入力音響信号の内容の変化点を検出する音響信号変化点検出ステップを含み、
前記変化点検出ステップは、
前記入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、前記第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる前記係数の値を検出するとともに、帯域毎の、前記第1の信号の平滑されたスペクトル振幅の値と、前記第2の信号の平滑されたスペクトル振幅の値に検出した値の前記係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、
前記変化量が所定の閾値より大きい場合に変化点とし、
検出された前記音響信号変化点近傍の映像および音声を再生または記録する
ことを特徴とするプログラムが記録されている記録媒体。 - 映像音響信号を入力とする信号処理装置を制御するプロセッサに実行させるプログラムにおいて、
入力音響信号の振幅を抽出し、抽出した前記振幅の時間的変化に基づいて、前記入力音響信号の内容の変化点を検出する音響信号変化点検出ステップを含み、
前記変化点検出ステップは、
前記入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、前記第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる前記係数の値を検出するとともに、帯域毎の、前記第1の信号の平滑されたスペクトル振幅の値と、前記第2の信号の平滑されたスペクトル振幅の値に検出した値の前記係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、
前記変化量が所定の閾値より大きい場合に変化点とし、
検出された前記音響信号変化点近傍の映像および音声を再生または記録する
ことを特徴とするプログラム。 - 映像音響信号を入力とする信号処理装置において、
入力映像信号の内容の変化点を検出する映像信号変化点検出手段と、
前記入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、前記第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる前記係数の値を検出するとともに、帯域毎の、前記第1の信号の平滑されたスペクトル振幅の値と、前記第2の信号の平滑されたスペクトル振幅の値に検出した値の前記係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、前記変化量が所定の閾値より大きい場合に変化点として検出する音響信号変化点検出手段と、
前記検出した入力音響信号の内容の変化点と入力映像信号の内容の変化点がほぼ同じタイミングで検出されたと判定したときに所定の信号内容を検出する検出手段と
を備えることを特徴とする信号処理装置。 - 前記映像音響信号は、テレビジョン放送信号であり、前記所定の内容の信号はコマーシャルメッセージである
ことを特徴とする請求項11に記載の信号処理装置。 - 映像音響信号を入力とする信号処理装置の信号処理方法において、
入力映像信号の内容の変化点を検出する映像信号変化点検出ステップと、
前記入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、前記第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる前記係数の値を検出するとともに、帯域毎の、前記第1の信号の平滑されたスペクトル振幅の値と、前記第2の信号の平滑されたスペクトル振幅の値に検出した値の前記係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、前記変化量が所定の閾値より大きい場合に変化点として検出する音響信号変化点検出ステップと、
前記検出した入力音響信号の内容の変化点と入力映像信号の内容の変化点がほぼ同じタイミングで検出されたと判定したときに所定の信号内容を検出する検出ステップと
を含むことを特徴とする信号処理方法。 - 映像音響信号を入力とする信号処理装置を制御するプロセッサに実行させるプログラムにおいて、
入力映像信号の内容の変化点を検出する映像信号変化点検出ステップと、
前記入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、前記第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる前記係数の値を検出するとともに、帯域毎の、前記第1の信号の平滑されたスペクトル振幅の値と、前記第2の信号の平滑されたスペクトル振幅の値に検出した値の前記係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、前記変化量が所定の閾値より大きい場合に変化点として検出する音響信号変化点検出ステップと、
前記検出した入力音響信号の内容の変化点と入力映像信号の内容の変化点がほぼ同じタイミングで検出されたと判定したときに所定の信号内容を検出する検出ステップと
を含むことを特徴とするプログラムが記録されている記録媒体。 - 映像音響信号を入力とする信号処理装置を制御するプロセッサに実行させるプログラムにおいて、
入力映像信号の内容の変化点を検出する映像信号変化点検出ステップと、
前記入力音響信号をスペクトル分解して各スペクトル信号のスペクトル振幅を抽出し、帯域毎の、サンプリングされた第1の信号の平滑化されたスペクトル振幅の値と、前記第1の信号より1つ前にサンプリングされた第2の信号の平滑化されたスペクトル振幅の値に所定の値の係数を乗算した結果得られた値との差の合計値が最も小さくなる前記係数の値を検出するとともに、帯域毎の、前記第1の信号の平滑されたスペクトル振幅の値と、前記第2の信号の平滑されたスペクトル振幅の値に検出した値の前記係数を乗算した結果得られた値との差の合計値を、第1の信号のスペクトルエネルギーで正規化してスペクトル変化量を算出し、前記変化量が所定の閾値より大きい場合に変化点として検出する音響信号変化点検出ステップと、
前記検出した入力音響信号の内容の変化点と入力映像信号の内容の変化点がほぼ同じタイミングで検出されたと判定したときに所定の信号内容を検出する検出ステップと
を含むことを特徴とするプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001216716A JP3840928B2 (ja) | 2001-07-17 | 2001-07-17 | 信号処理装置および方法、記録媒体、並びにプログラム |
US10/194,763 US6934462B2 (en) | 2001-07-17 | 2002-07-12 | Signal processing apparatus and method, recording medium, and program |
US11/194,024 US7865063B2 (en) | 2001-07-17 | 2005-07-28 | Signal processing apparatus and method, recording medium, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001216716A JP3840928B2 (ja) | 2001-07-17 | 2001-07-17 | 信号処理装置および方法、記録媒体、並びにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003029772A JP2003029772A (ja) | 2003-01-31 |
JP3840928B2 true JP3840928B2 (ja) | 2006-11-01 |
Family
ID=19051157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001216716A Expired - Fee Related JP3840928B2 (ja) | 2001-07-17 | 2001-07-17 | 信号処理装置および方法、記録媒体、並びにプログラム |
Country Status (2)
Country | Link |
---|---|
US (2) | US6934462B2 (ja) |
JP (1) | JP3840928B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2150046A1 (en) | 2008-07-31 | 2010-02-03 | Fujitsu Limited | Video reproducing device and video reproducing method |
EP2150040A1 (en) | 2008-07-31 | 2010-02-03 | Fujitsu Limited | Video reproducing device and video reproducing method |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4036328B2 (ja) * | 2002-09-30 | 2008-01-23 | 株式会社Kddi研究所 | 動画像データのシーン分類装置 |
JP2005101931A (ja) * | 2003-09-25 | 2005-04-14 | Fuji Photo Film Co Ltd | 画像プリント装置 |
JP4424590B2 (ja) * | 2004-03-05 | 2010-03-03 | 株式会社Kddi研究所 | スポーツ映像の分類装置 |
WO2007017970A1 (ja) * | 2005-08-11 | 2007-02-15 | Mitsubishi Denki Kabushiki Kaisha | 映像記録装置、シーンチェンジ抽出方法、及び映像音声記録装置 |
JP4862136B2 (ja) * | 2006-12-08 | 2012-01-25 | 株式会社Jvcケンウッド | 音声信号処理装置 |
JP2010074823A (ja) * | 2008-08-22 | 2010-04-02 | Panasonic Corp | 録画編集装置 |
JP5293329B2 (ja) | 2009-03-26 | 2013-09-18 | 富士通株式会社 | 音声信号評価プログラム、音声信号評価装置、音声信号評価方法 |
WO2010140355A1 (ja) * | 2009-06-04 | 2010-12-09 | パナソニック株式会社 | 音響信号処理装置および方法 |
US9860604B2 (en) * | 2011-11-23 | 2018-01-02 | Oath Inc. | Systems and methods for internet video delivery |
US20140184917A1 (en) * | 2012-12-31 | 2014-07-03 | Sling Media Pvt Ltd | Automated channel switching |
EP2965231A1 (en) * | 2013-03-08 | 2016-01-13 | Thomson Licensing | Method and apparatus for automatic video segmentation |
US10129586B2 (en) * | 2016-12-19 | 2018-11-13 | Google Llc | Detecting and isolating television program content from recordings of television airings |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5122886A (en) * | 1989-06-19 | 1992-06-16 | Pioneer Electronic Corporation | Selective information playback from recording medium based on user input content codes |
JP3823333B2 (ja) * | 1995-02-21 | 2006-09-20 | 株式会社日立製作所 | 動画像の変化点検出方法、動画像の変化点検出装置、動画像の変化点検出システム |
GB9705999D0 (en) * | 1997-03-22 | 1997-05-07 | Philips Electronics Nv | Video signal analysis and storage |
WO2001031502A1 (fr) * | 1999-10-27 | 2001-05-03 | Fujitsu Limited | Dispositif et procede de classement et de rangement d'informations multimedia |
-
2001
- 2001-07-17 JP JP2001216716A patent/JP3840928B2/ja not_active Expired - Fee Related
-
2002
- 2002-07-12 US US10/194,763 patent/US6934462B2/en not_active Expired - Lifetime
-
2005
- 2005-07-28 US US11/194,024 patent/US7865063B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2150046A1 (en) | 2008-07-31 | 2010-02-03 | Fujitsu Limited | Video reproducing device and video reproducing method |
EP2150040A1 (en) | 2008-07-31 | 2010-02-03 | Fujitsu Limited | Video reproducing device and video reproducing method |
Also Published As
Publication number | Publication date |
---|---|
US7865063B2 (en) | 2011-01-04 |
US6934462B2 (en) | 2005-08-23 |
JP2003029772A (ja) | 2003-01-31 |
US20030091323A1 (en) | 2003-05-15 |
US20050267740A1 (en) | 2005-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7266287B2 (en) | Using background audio change detection for segmenting video | |
US7865063B2 (en) | Signal processing apparatus and method, recording medium, and program | |
US6748360B2 (en) | System for selling a product utilizing audio content identification | |
US7386357B2 (en) | System and method for generating an audio thumbnail of an audio track | |
US5641927A (en) | Autokeying for musical accompaniment playing apparatus | |
JP3891111B2 (ja) | 音響信号処理装置及び方法、信号記録装置及び方法、並びにプログラム | |
US8682132B2 (en) | Method and device for detecting music segment, and method and device for recording data | |
US20020021759A1 (en) | Apparatus and method for processing signals | |
US8457322B2 (en) | Information processing apparatus, information processing method, and program | |
JPH10224722A (ja) | コマーシャル検出装置及び検出方法 | |
US20060285818A1 (en) | Information processing apparatus, method, and program | |
US7418393B2 (en) | Data reproduction device, method thereof and storage medium | |
JP2006301134A (ja) | 音楽検出装置、音楽検出方法及び録音再生装置 | |
EP1784011A1 (en) | Information signal processing method, information signal processing device, and computer program recording medium | |
JP2006323246A (ja) | 音響信号に対する情報の埋め込み装置、音響信号からの情報の抽出装置、および音響信号再生装置 | |
JP4432823B2 (ja) | 特定条件区間検出装置および特定条件区間検出方法 | |
US20090269029A1 (en) | Recording/reproducing device | |
US8234278B2 (en) | Information processing device, information processing method, and program therefor | |
EP2157580A1 (en) | Video editing system | |
JP2002149672A (ja) | Avコンテンツ自動要約システム及びavコンテンツ自動要約方式 | |
JP3124239B2 (ja) | 映像情報検出装置 | |
JP4212253B2 (ja) | 話速変換装置 | |
JP2001056700A (ja) | 音声記録再生装置 | |
JP2006050045A (ja) | 動画像データ編集装置及び動画像データ編集方法 | |
JP2007049421A (ja) | 情報処理装置および方法、並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050203 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050404 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060210 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060412 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20060510 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060718 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060731 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100818 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110818 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110818 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120818 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120818 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130818 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |