JP3565228B2 - Sound visualization method and device - Google Patents
Sound visualization method and device Download PDFInfo
- Publication number
- JP3565228B2 JP3565228B2 JP31812294A JP31812294A JP3565228B2 JP 3565228 B2 JP3565228 B2 JP 3565228B2 JP 31812294 A JP31812294 A JP 31812294A JP 31812294 A JP31812294 A JP 31812294A JP 3565228 B2 JP3565228 B2 JP 3565228B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- video
- representative screen
- information
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【産業上の利用分野】
本発明は、画像情報を用いて音情報を可視化し、映像の内容を把握する際に好適な音可視化方法および装置に関する。
【0002】
【従来の技術】
映像を容易に扱ったり、内容を容易に把握する技術は、ビデオハンドリング技術と呼ばれ、画像の輝度の変化量や物体の移動量、カメラの移動量等をインデクスとして、映像の外殻把握やパノラマ画像の作成に応用されている(外村ら:“Strucutured Video Computing, IEEE Multimedia, Fall, 1994”)が、ほとんどが画像情報のみに依存したものであるため、映像の中で何が起きたのかを直接反映するようなインデクスを用いたハンドリング技術は皆無に等しい。音の情報は、映像の中で何が起きたのかを良く反映しており、その特徴量は内容を直接的に表しているが、音情報の解析は音声認識や音場解析の分野で行われている程度である。音の解析結果を映像と関係づけるものに関しては、映画で扱われている音を解析したものがある(Michael J Hawley, “Structure out of Sound”,博士論文、MIT,1993)が、具体的な利用方法については述べられていない。
【0003】
音の可視化に至っては、波形やサウンドスペクトログラム、アイコン等の図形表示が存在するが、それがどのような音であるかを直感的に把握できるようなものではない。また、音の検索では、ワードスポッティングのようなハンティング技術は存在するが、特定の音がわからない場合や、音の表現が難しい場合に行うブラウジング技術は、音の一覧性の悪さや有効な可視化方法がないため存在しない。
【0004】
【発明が解決しようとする課題】
映像の内容を短時間で把握する際、従来の画像情報に基づいた方法では映像の内容をあまり反映していないために容易でない場合が多かった。例えば、画像のカット点を用いる場合、カット点の前後を再生したり、カット点の直後の画像を時系列にディスプレイ上に並べたり、紙に印刷したするが、カット点は映像が切り替わるとろであるだけで、それが映像の意味的な内容を表しているわけではない。また、無数の存在するカット点から重要な部分を取り出すことも困難であるため、内容把握に要する時間の短縮もこれ以上は容易でない。
【0005】
本発明の目的は、どのような音が存在するのかを直感的に把握することを可能にし、一覧性に優れた画像情報の良さと映像の内容を反映した音情報の良さの両者を兼ね備えた音可視化方法および装置を提供することにある。
【0006】
【課題を解決するための手段】
上記の目的を達成するため、本発明の音可視化方法は、画像情報と音情報からなる映像を実時間で入力し、実時間で入力された映像を蓄積し、音の有無を判別し、音情報のスペクトルの特徴量から様々な音を検出し、該特徴量が同じもの毎に音を分類し、音楽情報を検出する際には、音情報のスペクトルのピークが時間の経過とともに周波数方向に安定しているというスペクトルピークの安定度検出を行ない、分類された音に対応する画像を音の種類の時間的な変化と共に代表画面として選択し、表示する。
【0007】
本発明の実施態様では、ある一定時間の音情報の振幅の自乗和に閾値を設定して音の有無を判別する。
【0010】
本発明の実施態様では、音情報から人間の話し声または動物の鳴き声を検出する際には、スペクトルピーク安定度検出を行なった後、該スペクトルの周波数方向に整数倍あるいはそれに近い倍数のピークが複数存在するハーモニック構造を検出する。
【0011】
本発明の実施態様では、分類された音の始まり、あるいは一定時間後、あるいは終わり、あるいはそれらの組み合わせに対応する画像を代表画面として選択する。
【0012】
本発明の実施態様では、分類された音に対応する画像の中で、場面が変化するカット点を代表画面として選択する。
【0013】
本発明の実施態様では、選択された代表画面の枠を音の種類によって色分け、あるいは音の種類によって異なる図形や模様を表示し、あるいはそれらを組み合わせて時間の経過と共にディスプレイや紙に一覧表示する。
【0014】
本発明の音可視化装置は、
画像情報と音情報からなる映像を実時間で入力する映像入力部と、
実時間で入力された前記映像を蓄積し、該蓄積された映像を出力する映像蓄積部と、
前記映像を入力し、音の有無を判別する音判別部と、音が存在する部分の音情報の周波数スペクトルの特徴量から様々な音を検出し、該特徴量が同じもの毎に音を分類する音検出・分類部であって、音情報から歌または音楽を検出する際には、該音情報の周波数スペクトルのピークが時間の経過と共に周波数方向に安定しているというスペクトルピーク安定度検出を行う音検出・分類部と、分類された音に対応する画像を音の種類の時間的な変化と共に代表画面として選択する代表画面を有する映像管理部と、
前記代表画面を表示するインターフェース部とを有する。
【0015】
本発明の実施態様では、前記音判別部は、ある一定時間の音情報の振幅の自乗和に閾値を設定して音の有無を判別する。
【0018】
本発明の実施態様では、前記音検出・分類部が、音情報から人間の話し声または動物の鳴き声を検出する際には、該スペクトルの周波数方向に整数倍あるいはそれ近い倍数のピークが複数存在するハーモニック構造を検出する。
【0019】
本発明の実施態様では、前記代表画面選択部が、分類された音の始まり、あるいは一定時間後、あるいは終わり、あるいはそれらの組み合わせに対応する画像を代表画面として選択する。
【0020】
本発明の実施態様では、前記代表画面選択部が、分類された音に対応する画像の中で、場面が変化するカット点を代表画面として選択する。
【0021】
本発明の実施態様では、前記インターフェース部が、選択された代表画面の枠を音の種類によって色分け、あるいは音の種類によって異なる図形や模様を表示し、あるいはそれらを組み合わせて時間の経過と共にディスプレイや紙に一覧表示する。
【0022】
本発明の実施態様では、前記インターフェース部は、表示された該代表画面をディスプレイ上でマウス等のポインティングデバイスを用いて指定することにより、対応する映像を再生する。
【0023】
【作用】
本発明によれば、映像にどのような音が存在するのかを直感的に把握でき、音が存在する部分から様々な種類の音を検出、分類でき、特に周波数スペクトルのピークが時間の経過と共に周波数方向に安定しているというスペクトルピーク安定度検出方法を用いることにより、音情報から歌や音楽を検出することが可能である。
【0024】
ある一定時間の音情報の振幅の自乗和に閾値を設定して音の有無を判別する音判別方法を用いることにより、音の有無を判別できる。
【0027】
スペクトルの周波数方向に整数倍あるいはそれに近い倍数のピークが複数存在するハーモニック構造を検出するハーモニクス検出方法を用いることにより、音情報から人間の話し声や動物の鳴き声を検出することが可能である。
【0028】
分類された音の始まり、あるいは一定時間後、あるいは終わり、あるいはそれらの組み合わせに対応する画像を代表画面として選択することにより、音が可視化される。
【0029】
分類された音に対応する画像の中で、場面が変化するカット点を代表画面として選択することにより、音が可視化される。
【0030】
選択された代表画面の枠を音の種類によって色分け、あるいは音の種類によって異なる図形や模様を表示し、あるいはそれらを組み合わせて時間の経過と共にディスプレイや紙に一覧表示することにより、音が可視化される。
【0032】
表示された代表画面をディスプレイ上でマウス等のポインティングデバスを用いて指定し、対応する映像を再生する映像再生手段を用いることにより、所望の音に対応した映像を見ることが可能となる。
【0033】
【実施例】
次に、本発明の実施例について図面を参照して説明する。
【0034】
図1は本発明の一実施例の音可視化装置の概略構成を示すブロック図である。本実施例の音可視化装置は、映像を入力する映像入力部101と、実時間で入力された映像および特徴量を蓄積する映像・特徴量蓄積部102と、映像および特徴量を管理する映像管理部103と、本装置を制御し、可視化された音、再生された映像を提示するためのインターフェース部107から構成されている。映像管理部103は、音の有無を判別する音判別部104と、音の特徴量を抽出し、特徴量の種類によって音を分類する音検出・分類部105と、分類された音に対応する画像を選択する代表画面選択部106で構成されており、音判別部104と音検出・分類部105と代表画面選択部106は各々、並列あるいは時分割で作動し、実時間で特徴抽出しながら音を可視化できる。映像入力部101と映像・特徴量管理部102からは、映像のタイムコードあるいは経過時間を代表画面選択部106に送るためのバスも設けられている。
【0035】
図2は、音検出・分類部105において行われる音検出・分類処理201の処理の流れを示したもので、スペクトルピーク安定度検出処理202を行った後、ハーモニクス検出処理203を行う。
【0036】
図3は、映像管理部103の音判別部104と音検出・分類部105と代表画面選択部106を計算機等でソフトウェア的に実現する場合の処理を示すフローチャートである。この場合、まず、音判別処理301を行い、次に、音があると判断した場合には音検出・分類処理302を行う。音検出・分類処理302ではスペクトルピーク安定度検出処理303を行い、音楽かどうかを判断する。音楽でない場合には、さらにハーモニクス検出処理304を行い、人の声かどうか判断する。次に、分類された音に対応する画像を代表画面選択処理305で行う。音判別処理301で音がないと判別した場合には、音検出・分類処理302は行わず、代表画面選択処理305を行う。
【0037】
図4は、インターフェース部107をディスプレイ上に実現した場合の様子を示したもので、再生された映像は、再生画面表示用ウィンドウ401に映し出される。402は、再生する映像の種類を選択するためのコントロールパネルである。可視化された映像は、代表画面表示用ウィンドウ403のように時系列に並べられる。404は、音の種類を示すアイコンで、例えば音が音楽である場合には、図のようなアイコンを表示する。タイムコード表示用ウィンドウ405は、画像の時間を表しており、映像にタイムコードが付加されている場合には、タイムコードを表示し、タイムコードが付加されていない場合には、映像の始めからの経過時間が表示される。
【0038】
次に、本実施例の動作を説明する。
【0039】
映像は映像入力部101によって入力され、映像が実時間で入力された場合には逐次映像・特徴量蓄積部102に蓄積される。入力された映像のうち音情報は音判別部104によって解析される。音判別部104では、音情報の振幅の自乗和を数ms〜数10ms程度算出し、その値が設定された閾値以上であれば音が存在すると判別される。音が存在する場合には、音検出・分類部105によってどのような種類の音が存在するのかを音検出・分類処理201によって検出する。まず、スペクトルピーク安定度検出処理202において、音情報を512ポイント程度のフレーム長で数10ms程度フレームをシフトさせながら周波数スペクトルを算出する。次に、周波数スペクトルのケプストラムを128次程度の係数まで求める。求められたケプストラムのピークの軌跡を5秒間隔程度で求め、周波数方向の変動がない軌跡の平均持続時間を算出する。平均持続時間がある閾値以上であった場合に、音情報は音楽と分類される。ピークの検出には通常、ケプストラムを用いるが、スペクトル波形を直接使う方法も考えられる。音情報が音楽でない場合には、ハーモニクス検出処理203を行う。人間の話し声または動物の鳴き声が存在する場合には、周波数方向に整数倍あるいはそれに近い帯状のスペクトルが観測できる。そこで、周波数方向に適当な間隔のくし形フィルターを用意し、くしの間隔を変化させたり周波数方向に移動させながらくしの頂点でのスペクトルパワーの総和を求める。ハーモニクスが存在する場合には、スペクトルパワーの総和が大きくなるため、声の存在が検出できる。広帯域に広がるノイズが存在する場合にもこの値は大きくなるので、スペクトルパワーの総和から、くしの谷間でのスペクトルパワーの総和を差し引くことで、ノイズに対処できる。音情報のスペクトルパワーの総和がある閾値を超えた場合には人間の話し声または動物の鳴き声と分類され、閾値以下の場合にはその他の音と分類される。また、ハーモニクスの検出にはスペクトルのパワーに閾値を設け、閾値以上のスペクトル強度を1、閾値以下を0として2値化し、くしの頂点が1と重なった数を数えて、その数がある閾値を超えた場合には人や動物の話し声と分類され、閾値以下の場合にはその他の音と分類される方法も可能である。分類された音情報の次に代表画面選択部106で画像と対応付ける。対応付けは映像入力部101または映像・特徴量蓄積部102から送られてきたタイムコードを基本に行う。
【0040】
代表画面の選択は、分類された音の始めや終わり、一定時間後、カット点等、どのような画像を表示するかをインターフェース部107のコントロールパネル402において選択する。選択した代表画面を、インターフェース部107の代表画面表示用ウィンドウ403に時系列に表示し、音の種類によって404にアイコンを表示、タイムコード表示用ウィンドウ405にはタイムコードあるいは映像の始めからの経過時間を表示する。マウス等のポインティングデバイスを用いて代表画面を指定することで、対応する映像を映像・特徴量管理部102より読み込み、再生する。インターフェース部107のコントロールパネルパネル402において選択した代表画面は、装置に接続された外部出力装置をコントロール402において指定することでアイコンやタイムコードと共に時系列に配置された形で紙に印刷することも可能である。
【0041】
なお、映像・特徴量蓄積部102は映像の蓄積のみを行なうようにしてもよい。
【0042】
【発明の効果】
以上説明したように、本発明は以下に示すような効果がある。
【0043】
(1)請求項1および7の発明は、映像にどのような音が存在するのかを直感的に把握でき、特に音情報から歌や音楽を検出することができる。
【0044】
(2)請求項2、3および8〜9の発明は、音の有無が判別でき、またハーモニクス検出方法を用いることにより、人間の話し声や動物の鳴き声を検出できる。
【0045】
(3)請求項4および10の発明は、分類された音の始まり、あるいは一定時間後、あるいは終わり、あるいはそれらの組み合わせに対応する画像を代表画面として選択することにより、音の可視化ができる。
【0046】
(4)請求項5および11の発明は、分類された音に対応する画像の中で、場面が変化するカット点を代表画面として選択することにより、音の可視化ができる。
【0047】
(5)請求項6および12の発明は、選択された代表画面の枠を音の種類によって色分け、あるいは音の種類によって異なる図形や模様の付加、あるいはそれらを組み合わせて時間の経過と共にディスプレイや紙に一覧表示する代表画面表示方法を用いることにより、音の可視化ができる。
【0048】
(6)請求項13の発明は、表示された代表画面をディスプレイ上でマウス等を用いて指定することにより、所望の音に対応した映像を見ることができる。
【図面の簡単な説明】
【図1】本発明の一実施例の音可視化装置の概略構成を示すブロック図である。
【図2】音検出・分類部105の動作の流れを示すブロック図である。
【図3】映像管理部103の動作を計算機等でソフトウェア的に実現した場合の処理の流れを示すフローチャートである。
【図4】インターフェース部107の構成を示す図である。
【符号の説明】
101 映像入力部
102 映像・特徴量蓄積部
103 映像管理部
104 音判別部
105 音検出・分類部
106 代表画面選択部
107 インターフェ−ス部
201 音検出・分類処理
202 スペクトルピーク安定度検出処理
203 ハーモニクス検出処理
301 音判別処理
302 音検出・分類処理
303 スペクトルピーク安定度検出処理
304 ハーモニクス検出処理
305 代表画面選択処理
401 再生画面表示用ウィンドウ
402 コントロールパネル
403 代表画面表示用ウィンドウ
404 アイコン
405 タイムコード表示用ウィンドウ[0001]
[Industrial applications]
The present invention relates to a sound visualization method and apparatus suitable for visualizing sound information using image information and grasping the contents of a video.
[0002]
[Prior art]
Techniques for easily handling images and grasping the contents are called video handling techniques, and use the index of the amount of change in image brightness, the amount of object movement, the amount of camera movement, etc. It has been applied to the creation of panoramic images (Toumura et al .: “Structured Video Computing, IEEE Multimedia, Fall, 1994”), but what happened in the video because most of it depended only on image information There is almost no handling technique using an index that directly reflects the fact. Sound information is a good reflection of what happened in the video, and its features directly represent the content, but sound information analysis is performed in the fields of speech recognition and sound field analysis. It is to the extent that it has been done. As for a method of relating a sound analysis result to a video, there is a method of analyzing sound handled in a movie (Michael J Hawley, “Structure out of Sound”, doctoral dissertation, MIT, 1993). It does not mention how to use it.
[0003]
For visualization of sound, there are graphical displays such as waveforms, sound spectrograms, icons, and the like, but they do not provide an intuitive understanding of what kind of sound it is. In addition, hunting techniques such as word spotting exist in sound search, but browsing techniques that are used when a specific sound is unknown or when it is difficult to express a sound are difficult to list sound and effective visualization methods. Does not exist because there is no
[0004]
[Problems to be solved by the invention]
When grasping the contents of a video in a short time, it is often not easy to use the conventional method based on image information because the content of the video is not so reflected. For example, when using a cut point of an image, the image immediately before and after the cut point is reproduced, the images immediately after the cut point are arranged in chronological order on a display, or printed on paper. Just because it is, it does not represent the semantic content of the video. Further, since it is difficult to extract an important portion from the myriad of cut points, it is not easy to shorten the time required for grasping the contents.
[0005]
An object of the present invention is to make it possible to intuitively grasp what kind of sound exists, and to have both the goodness of image information excellent in listing and the goodness of sound information reflecting the contents of a video. An object of the present invention is to provide a sound visualization method and device.
[0006]
[Means for Solving the Problems]
In order to achieve the above object, the sound visualization method of the present invention is to input a video including image information and sound information in real time, accumulate the input video in real time, determine the presence or absence of sound, and Various sounds are detected from the characteristic amount of the information spectrum, the sounds are classified for each of the same characteristic amounts, and when detecting the music information, the peak of the spectrum of the sound information is shifted in the frequency direction with the passage of time. The degree of stability of the spectrum peak that is stable is detected, and an image corresponding to the classified sound is selected and displayed as a representative screen together with the temporal change of the type of sound.
[0007]
In embodiments of the present invention, to determine the presence or absence of a threshold value is set to the square sum of the amplitudes of the sound information for a predetermined time in to sound.
[0010]
In embodiments of the present invention, when detecting a squeal voice of human speech or animal from the sound information, after performing the spectral peak stability detection, a peak of an integral multiple or a multiple close to the frequency direction of the spectrum Detects a plurality of harmonic structures.
[0011]
In the embodiment of the present invention, the image corresponding to the start of the classified sound, or after a certain time, or at the end, or a combination thereof is selected as the representative screen.
[0012]
In the embodiment of the present invention, a cut point at which a scene changes is selected as a representative screen in an image corresponding to the classified sound.
[0013]
In the embodiment of the present invention, the frame of the selected representative screen is color-coded according to the type of sound, or a different figure or pattern is displayed according to the type of sound, or a list thereof is displayed on a display or paper over time by combining them. I do.
[0014]
The sound visualization device of the present invention includes:
An image input unit for inputting an image consisting of image information and sound information in real time,
A video storage unit that stores the video input in real time and outputs the stored video;
A sound discriminating unit that inputs the video and determines the presence / absence of sound, and detects various sounds from the feature amount of the frequency spectrum of the sound information of the portion where the sound exists, and classifies the sound for each of the same feature amount When detecting a song or music from sound information, the sound detection / classification unit performs a spectrum peak stability detection that the frequency spectrum peak of the sound information is stable in the frequency direction with the passage of time. A sound detection / classification unit to be performed , and a video management unit having a representative screen for selecting an image corresponding to the classified sound as a representative screen together with a temporal change in the type of sound,
An interface unit for displaying the representative screen .
[0015]
In an embodiment of the present invention, the sound determination unit determines a presence or absence of a sound by setting a threshold value to a sum of squares of the amplitude of the sound information for a certain period of time.
[0018]
In embodiments of the present invention, the sound detection and classification unit, when detecting the squeal voice of human speech or animal from the sound information, in the frequency direction of the spectral peak of an integral multiple or even close multiple multiple Detect existing harmonic structures.
[0019]
In an embodiment of the present invention, the representative screen selecting unit selects an image corresponding to the start of the classified sound, or after a certain time, or at the end, or a combination thereof as a representative screen.
[0020]
In an embodiment of the present invention, the representative screen selection unit selects a cut point at which a scene changes from among images corresponding to the classified sounds as a representative screen.
[0021]
In an embodiment of the present invention, the interface unit displays a frame of the selected representative screen in different colors according to the type of sound, or displays a different graphic or pattern depending on the type of sound, or displays them with the lapse of time by combining them. Or on paper.
[0022]
In an embodiment of the present invention, the interface unit reproduces a corresponding video by designating the displayed representative screen on a display using a pointing device such as a mouse.
[0023]
[Action]
According to the present invention, it is possible to intuitively grasp what kind of sound is present in a video, to detect and classify various kinds of sound from a part where sound exists, and particularly to make the peak of the frequency spectrum with the passage of time. By using the spectrum peak stability detection method of being stable in the frequency direction, it is possible to detect a song or music from sound information.
[0024]
The presence or absence of sound can be determined by using a sound determination method for determining the presence or absence of sound by setting a threshold value to the sum of squares of the amplitude of the sound information for a certain period of time.
[0027]
By using the harmonic detection method for detecting the harmonic structure integral multiple or multiple peaks in close to it there are a plurality of the frequency direction of the spectrum, it is possible to detect the squeal voice of human speech and animals from the sound information.
[0028]
Beginning of the classified sound, or after a predetermined time, or end, or by selecting an image corresponding to a combination of them as the representative screen, sound Ru visualized.
[0029]
Among the image corresponding to the classified sound, by selecting a cut point for scene changes as the representative screen, sound Ru visualized.
[0030]
Color depending on the type of the selected representative screen sound frame of, or to display different shapes and patterns according to the type of sound, or by a list on the display or paper over time by combining them, the sound is visualized You.
[0032]
By specifying the displayed representative screen on the display using a pointing device such as a mouse and using a video reproducing means for reproducing the corresponding video, it is possible to view a video corresponding to a desired sound.
[0033]
【Example】
Next, embodiments of the present invention will be described with reference to the drawings.
[0034]
FIG. 1 is a block diagram showing a schematic configuration of a sound visualization device according to one embodiment of the present invention. The sound visualization apparatus according to the present embodiment includes a
[0035]
FIG. 2 shows the flow of the sound detection / classification processing 201 performed by the sound detection /
[0036]
FIG. 3 is a flowchart showing processing when the
[0037]
FIG. 4 shows a state in which the
[0038]
Next, the operation of this embodiment will be described.
[0039]
The video is input by the
[0040]
In the selection of the representative screen, the
[0041]
Note that the video /
[0042]
【The invention's effect】
As described above, the present invention has the following effects.
[0043]
(1) According to the first and seventh aspects of the present invention, it is possible to intuitively grasp what kind of sound is present in a video, and particularly to detect a song or music from sound information .
[0044]
(2) According to the second , third and eighth to ninth aspects of the present invention, the presence or absence of sound can be determined, and the use of the harmonics detection method can detect human speech and animal squeal .
[0045]
(3) According to the inventions of claims 4 and 10 , the sound can be visualized by selecting, as a representative screen, an image corresponding to the start of the classified sound, or after a certain time, or at the end, or a combination thereof.
[0046]
(4) According to the fifth and eleventh aspects of the present invention, the sound can be visualized by selecting, as a representative screen, a cut point at which a scene changes in an image corresponding to the classified sound.
[0047]
(5) The invention according to claims 6 and 12 is characterized in that the frame of the selected representative screen is color-coded according to the type of sound, or a different graphic or pattern is added according to the type of sound, or a combination of these is used to display or print over time. By using the representative screen display method for displaying a list of the sounds, the sound can be visualized.
[0048]
(6) According to the thirteenth aspect , by specifying the displayed representative screen on the display using a mouse or the like, a video corresponding to a desired sound can be viewed.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a schematic configuration of a sound visualization device according to an embodiment of the present invention.
FIG. 2 is a block diagram showing a flow of an operation of a sound detection /
FIG. 3 is a flowchart showing the flow of processing when the operation of the video management unit 103 is realized by software using a computer or the like.
FIG. 4 is a diagram showing a configuration of an
[Explanation of symbols]
Claims (13)
音の有無を判別し、音情報の周波数スペクトルの特徴量から様々な音を検出し、該特徴量が同じもの毎に音を分類し、音情報から歌または音楽を検出する際には、音情報の周波数スペクトルのピークが時間の経過とともに周波数方向に安定しているという周波数スペクトルピークの安定度検出を行い、
分類された音に対応する画像を音の種類の時間的な変化と共に代表画面として選択し、表示する音可視化方法。Input a video consisting of image information and sound information in real time, accumulate the video input in real time,
The presence or absence of sound is determined, various sounds are detected from the features of the frequency spectrum of the sound information, the sounds are classified for each of the same features, and when detecting a song or music from the sound information, the sound is determined. Performs stability detection of the frequency spectrum peak that the frequency spectrum peak of the information is stable in the frequency direction over time,
A sound visualization method in which an image corresponding to a classified sound is selected and displayed as a representative screen together with a temporal change in the type of sound.
実時間で入力された前記映像を蓄積し、該蓄積された映像を出力する映像蓄積部と、
前記映像を入力し、音の有無を判別する音判別部と、音が存在する部分の音情報の周波数スペクトルの特徴量から様々な音を検出し、該特徴量が同じもの毎に音を分類する音検出・分類部であって、音情報から歌または音楽を検出する際には、該音情報の周波数スペクトルのピークが時間の経過と共に周波数方向に安定しているという周波数スペクトルピークの安定度検出を行う音検出・分類部と、分類された音に対応する画像を音の種類の時間的な変化と共に代表画面として選択する代表画面選択部を含む映像管理部と、
前記代表画面を表示するインターフェース部とを有する音可視化装置。A video input unit for inputting a video composed of image information and sound information in real time, a video storage unit for storing the video input in real time, and outputting the stored video,
A sound discriminating unit that inputs the video and determines the presence / absence of sound, and detects various sounds from the feature amount of the frequency spectrum of the sound information of the portion where the sound exists, and classifies the sound for each of the same feature amount When detecting a song or music from sound information, the sound detection / classification unit performs the stability of the frequency spectrum peak that the frequency spectrum peak of the sound information is stable in the frequency direction as time passes. A sound detection / classification unit that performs detection, and a video management unit that includes a representative screen selection unit that selects an image corresponding to the classified sound as a representative screen with a temporal change in the type of sound,
A sound visualization device having an interface unit for displaying the representative screen.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31812294A JP3565228B2 (en) | 1994-12-21 | 1994-12-21 | Sound visualization method and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31812294A JP3565228B2 (en) | 1994-12-21 | 1994-12-21 | Sound visualization method and device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08179791A JPH08179791A (en) | 1996-07-12 |
JP3565228B2 true JP3565228B2 (en) | 2004-09-15 |
Family
ID=18095750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP31812294A Expired - Lifetime JP3565228B2 (en) | 1994-12-21 | 1994-12-21 | Sound visualization method and device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3565228B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008126347A1 (en) | 2007-03-16 | 2008-10-23 | Panasonic Corporation | Voice analysis device, voice analysis method, voice analysis program, and system integration circuit |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3409828B2 (en) * | 1996-03-01 | 2003-05-26 | 日本電信電話株式会社 | Video table of contents generation method and apparatus |
JP3307613B2 (en) * | 1998-09-03 | 2002-07-24 | 株式会社次世代情報放送システム研究所 | Video search system |
JP3739967B2 (en) * | 1999-06-24 | 2006-01-25 | 富士通株式会社 | Acoustic browsing apparatus and method |
JP4543261B2 (en) | 2005-09-28 | 2010-09-15 | 国立大学法人電気通信大学 | Playback device |
JP2012133250A (en) | 2010-12-24 | 2012-07-12 | Sony Corp | Sound information display apparatus, method and program |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59107393A (en) * | 1982-12-13 | 1984-06-21 | カシオ計算機株式会社 | Clap sound detector |
JPS6147000A (en) * | 1984-08-10 | 1986-03-07 | ブラザー工業株式会社 | Voice head detector |
JP2960939B2 (en) * | 1989-08-24 | 1999-10-12 | 日本電信電話株式会社 | Scene extraction processing method |
JPH05188932A (en) * | 1992-01-14 | 1993-07-30 | Sony Corp | Musical sound recognition device |
JP3304386B2 (en) * | 1992-04-07 | 2002-07-22 | ソニー株式会社 | Image display method |
JPH0778804B2 (en) * | 1992-05-28 | 1995-08-23 | 日本アイ・ビー・エム株式会社 | Scene information input system and method |
JP3134568B2 (en) * | 1993-01-13 | 2001-02-13 | ソニー株式会社 | Image recording device |
-
1994
- 1994-12-21 JP JP31812294A patent/JP3565228B2/en not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008126347A1 (en) | 2007-03-16 | 2008-10-23 | Panasonic Corporation | Voice analysis device, voice analysis method, voice analysis program, and system integration circuit |
US8478587B2 (en) | 2007-03-16 | 2013-07-02 | Panasonic Corporation | Voice analysis device, voice analysis method, voice analysis program, and system integration circuit |
Also Published As
Publication number | Publication date |
---|---|
JPH08179791A (en) | 1996-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2994177B2 (en) | System and method for locating boundaries between video segments | |
EP1547060B1 (en) | System and method for generating an audio thumbnail of an audio track | |
Goto | A chorus section detection method for musical audio signals and its application to a music listening station | |
US7179982B2 (en) | Musical composition reproduction method and device, and method for detecting a representative motif section in musical composition data | |
US8856636B1 (en) | Methods and systems for trimming video footage | |
Ueda et al. | Automatic structure visualization for video editing | |
US7826911B1 (en) | Automatic selection of representative media clips | |
US20030122863A1 (en) | Navigation tool for slide presentations | |
CN104050974B (en) | Voice signal analytical equipment and voice signal analysis method and program | |
EP2180700A1 (en) | Interface system for editing video data | |
CN107888988A (en) | Video editing method and electronic equipment | |
KR20020050264A (en) | Reproducing apparatus providing a colored slider bar | |
JPH08249348A (en) | Method and device for video retrieval | |
JP2009508379A (en) | Video navigation method and apparatus | |
KR102161080B1 (en) | Device, method and program of generating background music of video | |
CN112487238B (en) | Audio processing method, device, terminal and medium | |
JP3565228B2 (en) | Sound visualization method and device | |
JP3736597B2 (en) | Statement structure information presentation apparatus and statement structure information presentation method | |
CN110475139B (en) | Video subtitle shielding method and device, storage medium and electronic equipment | |
JP4492124B2 (en) | Writing analysis apparatus, method, and program | |
Lehane et al. | Indexing of fictional video content for event detection and summarisation | |
WO2017036311A1 (en) | Object sorting method and device | |
JP3909130B2 (en) | Stream event point detection display method and apparatus | |
JPH11272401A (en) | Mouse cursor control method and recording medium for storing program for realizing the same method | |
JPH0895596A (en) | Quick-look and quick-listening device and method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040601 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090618 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090618 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100618 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100618 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110618 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120618 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130618 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140618 Year of fee payment: 10 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |