JP2011055386A - Audio signal processor, and electronic apparatus - Google Patents
Audio signal processor, and electronic apparatus Download PDFInfo
- Publication number
- JP2011055386A JP2011055386A JP2009204315A JP2009204315A JP2011055386A JP 2011055386 A JP2011055386 A JP 2011055386A JP 2009204315 A JP2009204315 A JP 2009204315A JP 2009204315 A JP2009204315 A JP 2009204315A JP 2011055386 A JP2011055386 A JP 2011055386A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- acoustic signal
- sound
- target
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音響信号に対して信号処理を行う音響信号処理装置に関する。また、本発明は、そのような音響信号処理装置を利用した、記録装置や再生装置等の電子機器に関する。 The present invention relates to an acoustic signal processing apparatus that performs signal processing on an acoustic signal. The present invention also relates to an electronic apparatus such as a recording apparatus or a reproducing apparatus using such an acoustic signal processing apparatus.
近年の撮像技術の発展に伴い、通常よりも高速に映像を撮影及び記録することのできる撮像装置が実用化されている。このような高速撮影の機能は、従来は特殊用途の撮像装置にのみ搭載されていたが、最近では民生用の撮像装置にも搭載されている。 With the recent development of imaging technology, imaging apparatuses capable of capturing and recording video at a higher speed than usual have been put into practical use. Such a high-speed shooting function has been conventionally installed only in a special-purpose imaging device, but recently it is also installed in a consumer imaging device.
この種の撮像装置では、通常撮影モード又は高速撮影モードにて動画像の撮影を行うことができる。通常撮影モードでは、一般的な動画像撮影と同様、1秒間に60フレーム又は30フレームの映像を撮影及び記録する。つまり、60fps(frame per second)又は30fpsのフレームレートにて動画像の撮影を行う。通常撮影モードにて記録された動画像を撮影時と同じフレームレート(即ち、60fps又は30fps)にて再生すると、等倍速の再生映像が得られる(図5参照)。 With this type of imaging apparatus, it is possible to shoot moving images in the normal shooting mode or the high-speed shooting mode. In the normal shooting mode, as in general moving image shooting, 60 frames or 30 frames of video are shot and recorded per second. That is, moving images are shot at a frame rate of 60 fps (frame per second) or 30 fps. When a moving image recorded in the normal shooting mode is played back at the same frame rate as that at the time of shooting (that is, 60 fps or 30 fps), a playback video at a normal speed is obtained (see FIG. 5).
これに対し、高速撮影モードでは、300fpsや600fpsの高速フレームレートにて動画像の撮影が行われる。この高速撮影モードによって撮影された動画像を通常のフレームレートである60fpsにて再生すると、1/5倍速や1/10倍速の滑らかなスロー再生を実現することができる(図6参照)。 On the other hand, in the high-speed shooting mode, moving images are shot at a high-speed frame rate of 300 fps or 600 fps. When a moving image shot in this high-speed shooting mode is played back at a normal frame rate of 60 fps, smooth slow playback at 1/5 times speed or 1/10 times speed can be realized (see FIG. 6).
例えば、600fpsのフレームレートにて1秒間だけ動画像の撮影を行うと、600フレームから成る動画像が記録されるが、この動画像を60fpsのフレームレートにて再生すると、再生に10秒間かかる。つまり、1秒間分の記録動画像が10秒間をかけてスロー再生(1/10倍速のスロー再生)されることになる。 For example, if a moving image is shot for 1 second at a frame rate of 600 fps, a moving image consisting of 600 frames is recorded. If this moving image is played back at a frame rate of 60 fps, the playback takes 10 seconds. That is, a recorded moving image for one second is played back slowly (1/10 speed slow playback) over 10 seconds.
高速撮影に基づくスロー再生が可能な撮像装置も実用化されているが、高速撮影モードにおいては、音響信号が記録されていないのが実情である。1秒間分の動画像の撮影時に1秒間分の音響信号を収音して記録し、その1秒間分の記録音響信号を10秒間分のスロー再生動画像に同期させた状態でスロー再生しようとすると、音響信号のピッチが変動して間延びしたような音が再生されるためである。 An imaging apparatus capable of slow reproduction based on high-speed shooting has been put into practical use, but in reality, no acoustic signal is recorded in the high-speed shooting mode. When shooting a moving image for 1 second, an acoustic signal for 1 second is picked up and recorded, and the recorded acoustic signal for 1 second is tried to be played slowly in synchronization with the slow-playing moving image for 10 seconds. This is because a sound that is extended by changing the pitch of the acoustic signal is reproduced.
他方において、音響信号のスロー再生に関する技術が下記特許文献1〜3に開示されている。これらの特許文献に示された方法では、何れも、記録又は再生のフレームレートに合わせて音響信号に伸張処理が施されている。音響信号に関する伸張処理とは、伸張処理の対象となる音響信号を時間方向に引き伸ばすことによって当該音響信号の信号長さを増大させる処理を指す。音響信号の信号長さとは、当該音響信号が存在する区間の時間長さを指す。
On the other hand, technologies relating to slow reproduction of acoustic signals are disclosed in
一般的な伸張処理の方法として、ピッチを維持したまま音響信号を伸張する方法(換言すれば、ピッチを伸張処理の前後において変化させない方法)が知られており、声の音程を変化させることなく発話速度を増減させる話速変換技術に応用されている。しかしながら、この方法を単純に映像のスロー再生に適用することは望ましくない。ピッチを維持したまま音響信号を伸張する方法は、基本的に人の声の伸張に適した方法であり、動画像と共に記録された音響信号が例えば音楽の音響信号である場合に該伸張方法を適用すると、違和感のある音が再生されることになるからである。動画像と共に記録された音響信号が人の声及び音楽以外の音源によるものである場合においても、同様の問題が発生しうる。 As a general stretching method, a method of stretching an acoustic signal while maintaining the pitch (in other words, a method in which the pitch is not changed before and after the stretching process) is known, and without changing the pitch of the voice. It is applied to speech speed conversion technology that increases or decreases the speech speed. However, it is not desirable to simply apply this method to slow video playback. The method of extending the sound signal while maintaining the pitch is basically a method suitable for extending a human voice. When the sound signal recorded together with the moving image is, for example, a music sound signal, the extension method is used. This is because when applied, a sound with a sense of incongruity is reproduced. The same problem can occur when the acoustic signal recorded with the moving image is from a voice source other than human voice and music.
そこで本発明は、映像のスロー再生に適した音響信号を生成可能な音響信号処理装置及び電子機器を提供することを目的とする。 SUMMARY An advantage of some aspects of the invention is that it provides an audio signal processing device and an electronic apparatus that can generate an audio signal suitable for slow reproduction of video.
本発明に係る音響信号処理装置は、対象動画像を第1フレームレートにて撮影しているときに収音された入力音響信号から、前記入力音響信号よりも長い信号長さを有する出力音響信号を生成する出力音響信号生成部を備えた音響信号処理装置であって、前記出力音響信号は、前記対象動画像を前記第1フレームレートよりも小さな第2フレームレートで再生するときに前記対象動画像とともに音として再生されるべき音響信号であり、前記出力音響信号生成部は、前記入力音響信号の音源の種類に応じて前記入力音響信号から前記出力音響信号を生成することを特徴とする。 The acoustic signal processing device according to the present invention is an output acoustic signal having a signal length longer than the input acoustic signal from an input acoustic signal picked up when the target moving image is captured at the first frame rate. And an output sound signal generating unit that generates the target moving image when the target moving image is reproduced at a second frame rate smaller than the first frame rate. It is an acoustic signal to be reproduced as sound together with an image, and the output acoustic signal generation unit generates the output acoustic signal from the input acoustic signal according to the type of sound source of the input acoustic signal.
これにより、音源の種類に適応した、映像のスロー再生用の音響信号を生成することが可能になる。 This makes it possible to generate an audio signal for slow playback of a video adapted to the type of sound source.
具体的には例えば、前記出力音響信号生成部は、前記入力音響信号に基づいて前記入力音響信号の音源の種類を解析する音源種類解析部を備え、前記音源種類解析部によって解析された、前記入力音響信号の音源の種類に応じて、前記入力音響信号から前記出力音響信号を生成する。 Specifically, for example, the output acoustic signal generation unit includes a sound source type analysis unit that analyzes a type of a sound source of the input sound signal based on the input sound signal, and is analyzed by the sound source type analysis unit, The output sound signal is generated from the input sound signal according to the type of the sound source of the input sound signal.
また例えば、前記音源種類解析部は、前記入力音響信号に基づいて前記入力音響信号の音源に人の声が含まれているのか否かを判断し、前記出力音響信号生成部は、前記入力音響信号の音源に人の声が含まれているか否かに応じて、前記入力音響信号から前記出力音響信号を生成する方法を変更する。 Further, for example, the sound source type analyzing unit determines whether or not a human voice is included in the sound source of the input sound signal based on the input sound signal, and the output sound signal generating unit is configured to output the input sound signal. The method for generating the output sound signal from the input sound signal is changed according to whether or not a human voice is included in the sound source of the signal.
より具体的には例えば、前記出力音響信号生成部は、前記入力音響信号に種類の異なる複数の音源からの音響信号が含まれているとき、前記音源種類解析部を用いて、前記複数の音源からの音響信号を複数の分離音響信号として個別に前記入力音響信号から抽出しつつ各分離音響信号の音源の種類を解析した後、各分離音響信号に対して各分離音響信号の音源の種類に応じた伸張処理を施してから前記複数の分離音響信号を合成することにより前記出力音響信号を生成する。 More specifically, for example, when the input acoustic signal includes acoustic signals from a plurality of different sound sources, the output acoustic signal generation unit uses the sound source type analysis unit to generate the plurality of sound sources. After analyzing the sound source type of each separated sound signal while individually extracting the sound signal from the input sound signal as a plurality of separated sound signals, the sound source type of each separated sound signal for each separated sound signal The output sound signal is generated by synthesizing the plurality of separated sound signals after performing a corresponding expansion process.
これにより、入力音響信号に含まれうる複数の音源からの音響信号ごとに、音源の種類に適応した伸張処理を施すことができる。 Thereby, the expansion process suitable for the kind of sound source can be performed for each sound signal from a plurality of sound sources that can be included in the input sound signal.
また例えば、前記出力音響信号生成部は、前記音源種類解析部による解析結果だけでなく前記対象動画像の映像信号に対する解析結果にも基づいて、前記入力音響信号から前記出力音響信号を生成する。 Further, for example, the output sound signal generation unit generates the output sound signal from the input sound signal based not only on the analysis result by the sound source type analysis unit but also on the analysis result on the video signal of the target moving image.
これにより、映像内容にも適用した音響信号を生成及び再生することが可能となる。 As a result, it is possible to generate and reproduce an audio signal applied to the video content.
本発明に係る電気機器は、前記音声信号処理を備えた電子機器であって、前記対象動画像を第1フレームレートにて撮影しているときにおいて、前記入力音響信号から前記出力音響信号を生成して前記出力音響信号を記録媒体に記録する、或いは、前記入力音響信号を前記記録媒体に記録しておき、前記対象動画像を第2フレームレートにて再生するときにおいて、記録された前記入力音響信号から前記出力音響信号を生成して前記対象動画像とともに前記出力音響信号を再生することを特徴とする。 The electrical device according to the present invention is an electronic device including the audio signal processing, and generates the output acoustic signal from the input acoustic signal when the target moving image is captured at a first frame rate. When the output sound signal is recorded on a recording medium, or the input sound signal is recorded on the recording medium and the target moving image is reproduced at the second frame rate, the recorded input is recorded. The output sound signal is generated from the sound signal, and the output sound signal is reproduced together with the target moving image.
本発明によれば、映像のスロー再生に適した音響信号を生成可能な音響信号処理装置及び電子機器を提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the audio signal processing apparatus and electronic device which can produce | generate the audio signal suitable for slow reproduction | regeneration of an image | video can be provided.
本発明の意義ないし効果は、以下に示す実施の形態の説明により更に明らかとなろう。ただし、以下の実施の形態は、あくまでも本発明の一つの実施形態であって、本発明ないし各構成要件の用語の意義は、以下の実施の形態に記載されたものに制限されるものではない。 The significance or effect of the present invention will become more apparent from the following description of embodiments. However, the following embodiment is merely one embodiment of the present invention, and the meaning of the term of the present invention or each constituent element is not limited to that described in the following embodiment. .
以下、本発明の実施の形態につき、図面を参照して具体的に説明する。参照される各図において、同一の部分には同一の符号を付し、同一の部分に関する重複する説明を原則として省略する。 Hereinafter, embodiments of the present invention will be specifically described with reference to the drawings. In each of the drawings to be referred to, the same part is denoted by the same reference numeral, and redundant description regarding the same part is omitted in principle.
<<第1実施形態>>
本発明の第1実施形態を説明する。図1は、本発明の第1実施形態に係る撮像装置1の全体的構成を表すブロック図である。撮像装置1は、符号11〜18によって参照される各部位を備える。撮像装置1は、静止画像及び動画像を撮影可能なデジタルビデオカメラである。尚、撮像装置1と異なる再生装置に表示部16及び/又はスピーカ17が設けられている、と解釈することも可能である。
<< First Embodiment >>
A first embodiment of the present invention will be described. FIG. 1 is a block diagram showing the overall configuration of the
撮像部11は、撮像素子を用いて被写体の撮影を行い、映像信号処理部12と協働して被写体の画像の映像信号を取得する。具体的には、撮像部11は、図示されない光学系、絞り、及び、CCD(Charge Coupled Device)又はCMOS(Complementary Metal Oxide Semiconductor)イメージセンサなどから成る撮像素子を有する。この撮像素子は、光学系及び絞りを介して入射した被写体を表す光学像を光電変換し、該光電変換によって得られたアナログの電気信号を出力する。図示されないAFE(Analog Front End)は、撮像素子から出力されたアナログ信号を増幅してデジタル信号に変換する。
The imaging unit 11 captures a subject using an imaging element, and acquires a video signal of an image of the subject in cooperation with the video
得られたデジタル信号は映像信号処理部12に送られ、映像信号処理部12は該デジタル信号から被写体の画像の映像信号を生成する。尚、デジタル信号形式にて表現された映像信号を画像データとも呼ぶ。また、本明細書では、画像データを単に画像ということもある。映像信号処理部12は、被写体の画像の画像データに対して様々な画像処理(デモザイキング処理、エッジ強調処理、ノイズ低減処理、画像圧縮処理など)を行うことができる。
The obtained digital signal is sent to the video
マイク部13は、1又は複数のマイクロホンから成り、撮像装置1の周辺に位置する音源からの音を収音して電気信号に変換する。得られた電気信号は、音響信号として音響信号処理部14に送られる。音響信号処理部14では、該音響信号に対して様々な音響信号処理を施すことができるが、詳細は後述する。
The
記録媒体15は、半導体メモリ、磁気ディスク等から成る不揮発性メモリであり、映像信号処理部12にて生成された映像信号及び音響信号処理部14にて生成された音響信号を記録することができる。表示部16は、液晶ディスプレイ等から成り、撮像部11の撮影によって得られた画像や、記録媒体15に記録されている画像などを表示する。スピーカ17は、音響信号処理部14にて生成された音響信号や記録媒体15に記録されている音響信号を音として再生出力する。
The
操作部18は、ユーザが撮像装置1に対して各種操作を行うための部位である。図2に示す如く、操作部18には、静止画像の撮影指示を行うためのシャッタボタン18a、動画像の撮影開始及び終了を指示するための録画ボタン18bが含まれる。主制御部19は、操作部18に対して成された操作内容に従いつつ、撮像装置1内の各部位の動作を統括的に制御する。
The
マイク部13を形成するマイクロホンの個数は1であっても良いし又は3以上であっても良いが、本実施形態では、図3に示す如く、マイク部13が2つのマイクロホン、即ち、マイクロホン13L及び13Rから形成される場合を想定する。図4は、マイクロホン13L及び13Rが設けられた撮像装置1の外観斜視図である。
The number of microphones forming the
マイクロホン13L及び13Rは、撮像装置1の筐体上の、互いに異なる位置に配置されている。撮像装置1の被写体に正対した撮影者から見て、左側よりにマイクロホン13Lが配置され、右側よりにマイクロホン13Rが配置されている。また、図4に示す如く、撮像装置1から撮像部11の撮影範囲に収まる被写体へと向かう方向を前方と定義し、その逆の方向を後方と定義する。マイクロホン13L及び13Rは、指向性を有さない無指向性マイクロホンである。但し、指向性を有するマイクロホンを、マイクロホン13L及び13Rとして採用することも可能である。
The
マイクロホン13Lは、自身が収音した音を電気信号に変換して該音を表す検出信号を出力する。マイクロホン13Rは、自身が収音した音を電気信号に変換して該音を表す検出信号を出力する。これらの検出信号は、アナログ音響信号である。マイクロホン13L及び13Rの検出信号であるアナログ音響信号は、夫々、図示されないA/D変換器によってデジタル音響信号に変換される。
The
マイクロホン13Lを左チャンネルに対応させ、マイクロホン13Rを右チャンネルに対応させて考える。マイクロホン13Lの検出信号に基づく音響信号とマイクロホン13Rの検出信号に基づく音響信号を区別する場合、前者を特に左チャンネルの音響信号などと呼び、後者を特に右チャンネルの音響信号などと呼ぶ。マイクロホン13L及び/又は13Rの検出信号をデジタル変換することによって得たデジタル音響信号を原音響信号と呼ぶ。マイクロホン13L及び/又は13Rの検出信号をデジタル変換することによって得たデジタル音響信号に所定の信号処理(オートレベルコントロールによる信号レベル調整処理など)を施して得た音響信号を、原音響信号と捉えても良い。原音響信号は、時間軸上の信号であるとする。また、特に記述なき限り、本実施形態及び後述の他の実施形態における任意の音響信号は、時間軸上の音響信号(時間領域で表現された音響信号)であると解釈することができる。
Consider the
ところで、撮像装置1では、動画像の撮影時のフレームレートが可変となっていると共に動画像の再生時のフレームレートも可変となっている。ユーザは、操作部18を介して、撮影モードを通常撮影モード又は高速撮影モードに設定することができる。以下、動画像の撮影時のフレームレートを撮影レートとも呼び、動画像の再生時のフレームレートを再生レートとも呼ぶ。
By the way, in the
通常撮影モードでは、図5に示す如く動画像が60fps(frame per second)にて撮影される。そして、60fpsにて撮影された動画像を、同じフレームレート(即ち60fps)にて再生することができる。この場合、撮影された動画像が通常の再生速度にて表示部16上に表示される。つまり、1秒間をかけて撮影された60枚のフレームが1秒間をかけて表示部16上に表示される。
In the normal shooting mode, a moving image is shot at 60 fps (frame per second) as shown in FIG. A moving image shot at 60 fps can be reproduced at the same frame rate (ie, 60 fps). In this case, the captured moving image is displayed on the
高速撮影モードでは、図6に示す如く動画像が600fpsにて撮影される。そして、600fpsにて撮影された動画像を、60fpsにて再生することができる。この場合、1秒間をかけて撮影された600枚のフレームが10秒間をかけて表示部16上に表示される。これにより、実質的なスロー再生を実現することができる。尚、撮影レート及び再生レートの具体的数値は、勿論、例示であり、通常撮影モードにおける撮影レートは60fps以外(例えば30fps)であっても良いし、高速撮影モードにおける撮影レートは600fps以外(例えば300fps)であっても良い。再生レートの具体的数値は、撮影レートの変更に伴って変更されうる。
In the high-speed shooting mode, a moving image is shot at 600 fps as shown in FIG. A moving image shot at 600 fps can be reproduced at 60 fps. In this case, 600 frames taken over 1 second are displayed on the
以下の説明では、高速撮影モードにおいて600fpsにて対象動画像の撮影が行われ、対象動画像が再生時において60fpsにて再生されることを想定する。α秒間をかけて対象動画像が撮影される際、その撮影区間においてα秒間分の原音響信号が収音されるが、α秒間をかけて撮影された対象動画像を(10×α)秒間をかけてスロー再生する時に、原音響信号も単純にスロー再生するようにすると、音響信号のピッチが変動して間延びしたような音が再生される(αは任意の正の数)。ピッチとは音響信号の基本周波数であり、音源が人の声である場合、ピッチとは人の声帯振動による音響信号の基本周波数のことである。 In the following description, it is assumed that the target moving image is shot at 600 fps in the high-speed shooting mode, and the target moving image is played back at 60 fps during playback. When the target moving image is shot over α seconds, the original sound signal for α seconds is picked up in the shooting section, and the target moving image shot over α seconds is captured for (10 × α) seconds. When the original sound signal is simply played back slowly when the sound is played back slowly, the sound is reproduced as if the pitch of the sound signal is fluctuated (α is an arbitrary positive number). The pitch is the fundamental frequency of the acoustic signal, and when the sound source is a human voice, the pitch is the fundamental frequency of the acoustic signal due to human vocal cord vibration.
ピッチを維持したまま音響信号を伸張する方法(換言すれば、ピッチを伸張処理の前後において変化させない方法)も知られているが、そのような伸張方法が常に適切であるとは限らない。ピッチを維持した伸張方法では、基本的に、音響信号を複数のブロックに切り分けて同一のブロックを複数回繰り返し再生することで、音響信号の引き伸ばしを行う。このため、人の声の音響信号に対してはピッチを維持した伸張方法が比較的適しているが(音程が変化せず単に一つ一つの音が引き伸ばされるため)、該伸張方法を様々な周波数が混ざり合って形成された音楽に適用すると違和感のある音が生成されることが多い。また、野球のバッティングシーンなどをスロー再生する場合には、バットでボールを打った瞬間の音をエコー処理したほうが、より再生映像にマッチするものと考えられる。 A method of expanding an acoustic signal while maintaining the pitch (in other words, a method in which the pitch is not changed before and after the expansion process) is known, but such an expansion method is not always appropriate. In the stretching method that maintains the pitch, the acoustic signal is basically stretched by dividing the acoustic signal into a plurality of blocks and repeatedly reproducing the same block a plurality of times. For this reason, a stretching method that maintains the pitch is relatively suitable for the acoustic signal of a human voice (because the pitch does not change and each sound is simply stretched). When applied to music formed with a mixture of frequencies, a sound with an uncomfortable feeling is often generated. In addition, when slow-playing a baseball batting scene or the like, it is considered that the echo processing of the sound at the moment of hitting the ball with the bat matches the reproduced video more.
これらを考慮し、対象動画像の再生に適応した音響信号を原音響信号から生成する機能を、撮像装置1に設ける。図7に、この機能に特に関与する部位のブロック図を示す。図7に示される音源種類解析部31、音響信号伸張部32及び音響信号符号化部33を、図1の音響信号処理部14に設けておくことができ、図1に示される映像信号解析部34を図1の映像信号処理部12に設けておくことができる。
In consideration of these, the
音源種類解析部31(以下、解析部31と略記することがある)及び音響信号伸張部32(以下、伸張部32と略記することがある)には、対象音響信号が入力される。対象音響信号とは、対象動画像の撮影時においてマイク部13にて収音された原音響信号である。
The target sound signal is input to the sound source type analysis unit 31 (hereinafter may be abbreviated as the analysis unit 31) and the acoustic signal expansion unit 32 (hereinafter may be abbreviated as the expansion unit 32). The target sound signal is an original sound signal picked up by the
解析部31は、対象音響信号に基づいて対象音響信号に含まれる信号成分の音源の種類を解析する。換言すれば、如何なる種類の音源からの音響信号が対象音響信号に含まれているのかを、対象音響信号に基づいて解析する。例えば、対象音響信号に含まれる信号成分の音源の種類が、人の声であるのか(換言すれば人の声帯であるのか)、音楽であるのか、インパルス状の音(以下、インパルス音という)であるのか、動物の鳴き声であるのかを解析する。解析部31の解析結果を表す情報は、音源種類情報として伸張部32に送られる。
The
一方で、映像信号解析部34は、対象動画像の映像信号である対象映像信号に基づき対象動画像に含まれる物体等の解析を行う。例えば、顔検出処理を用いて対象動画像上に人の顔が存在しているか否かを解析することができる。また例えば、対象動画像上における物体の動きの速度の大きさから対象動画像がスポーツ風景を撮影したものであるのか否かを解析することもできる。映像信号解析部34の解析結果を表す情報は、映像解析情報として伸張部32に送られる。
On the other hand, the video
伸張部32は、フレームレート情報に従って、対象音響信号を時間的に伸張することにより伸張音響信号を生成する。フレームレート情報によって、対象動画像の撮影レートと対象動画像の再生レートが規定される。本例では、上述したように、対象動画像の撮影レートは600fpsであって且つ対象動画像の再生レートは60fpsであるため、α秒間分の対象音響信号から(10×α)秒間分の音響信号を伸張音響信号として生成する。
The
対象音響信号から伸張音響信号を生成する方法は、主として音源種類情報に応じて決定され、その方法を、映像解析情報及びシーン設定情報にも依存して決定することができる。シーン設定情報とは、設定された撮影シーンを指し示す情報であり、ユーザは、操作部18を用いて撮影シーンを所望のものに設定することができる。例えば、スポーツ風景を撮影する場合、ユーザは撮影シーンを「スポーツ」に設定することができ、撮像装置1に近接した被写体を撮影する場合、ユーザは撮影シーンを「マクロ」に設定することができる。撮影シーンが「スポーツ」に設定されている時、撮像装置1は、スポーツ風景の撮影に適した撮影条件にて対象動画像の撮影を実行し、撮影シーンが「マクロ」に設定されている時、撮像装置1は、近接した被写体の撮影に適した撮影条件にて対象動画像の撮影を実行する。
A method for generating the extended sound signal from the target sound signal is determined mainly according to the sound source type information, and the method can be determined depending on the video analysis information and the scene setting information. The scene setting information is information indicating the set shooting scene, and the user can set the shooting scene to a desired one using the
音源種類情報、映像解析情報及びシーン設定情報に応じた伸張音響信号の生成方法については後に詳説される。尚、対象音響信号に基づく伸張音響信号の生成をチャンネルごとに行うことができる。即ち、伸張部32は、左チャンネルの対象音響信号を時間的に伸張することにより左チャンネルの伸張音響信号を生成し、右チャンネルの対象音響信号を時間的に伸張することにより右チャンネルの伸張音響信号を生成することができる。以下では、特に必要の無い限り、チャンネルを区別しての説明は行わない。
A method for generating an extended sound signal in accordance with the sound source type information, the video analysis information, and the scene setting information will be described in detail later. Note that the generation of the extended acoustic signal based on the target acoustic signal can be performed for each channel. That is, the
音響信号符号化部33は、伸張部32にて生成された伸張音響信号を所定の符号化方式(例えば、AAC(Advanced Audio Coding))にて符号化することにより符号化音響信号を生成する。他方、図1の映像信号処理部12において、対象動画像の映像信号は符号化されて符号化映像信号が生成される。符号化音響信号は、対象動画像の符号化映像信号に対して時間的に関連付けられつつ、対象動画像の符号化映像信号と共に記録媒体15に記録される。
The acoustic
再生時には、記録媒体15から対象動画像の符号化映像信号と符号化音響信号が読み出され、映像信号処理部12及び音響信号処理部14においてそれらは復号されて、対象動画像の映像信号と伸張音響信号が生成される。復号によって得られた映像信号を60fpsにて表示部16に送ることにより対象動画像が60fpsにて再生表示されると共に、伸張音響信号をスピーカ17に送ることで対象動画像の再生映像に同期した伸張音響信号が音として再生される。
At the time of reproduction, the encoded video signal and the encoded audio signal of the target moving image are read from the
図8に、再生時における対象動画像と伸張音響信号の時間的関係を示す。α秒間をかけて600fpsにて撮影された対象動画像は、再生時において(10×α)秒間をかけて60fpsにて再生される。一方、対象動画像の撮影時に収音されたα秒分の原音響信号から生成された(10×α)秒分の伸張音響信号は、60fpsによる対象動画像の再生に同期した状態で、(10×α)秒をかけてスピーカ17にて再生される。
FIG. 8 shows a temporal relationship between the target moving image and the extended sound signal during reproduction. The target moving image shot at 600 fps over α seconds is reproduced at 60 fps over (10 × α) seconds during reproduction. On the other hand, the extended acoustic signal for (10 × α) seconds generated from the original sound signal for α seconds collected during the shooting of the target moving image is synchronized with the reproduction of the target moving image at 60 fps. It is reproduced by the
[音源種類解析方法]
解析部31による、音源の種類の解析方法について説明する。対象音響信号が存在する全区間に含まれる特定区間に注目し、特定区間における対象音響信号中に特定種類の音源からの音響信号が含まれているか否かを判断する方法を説明する。尚、解析部31は、特定区間における左チャンネル及び右チャンネルの対象音響信号の内、左チャンネルの対象音響信号のみに基づいて、又は、右チャンネルの対象音響信号のみに基づいて、特定区間における左チャンネル及び右チャンネルの対象音響信号中に特定種類の音源からの音響信号が含まれているか否かを判断することができる。或いは、特定区間における左チャンネル及び右チャンネルの対象音響信号に基づいて、その判断を行うことも可能である。
[Sound source type analysis method]
A method of analyzing the type of sound source by the
特定区間における対象音響信号に人の声による音響信号が含まれているか否かを、音声認識処理等で利用されている公知の発話区間検出方法(例えば、特開平10−257596号公報に示された方法)を用いて検出することができる。具体的には例えば、自己相関処理を利用したピッチ抽出に基づく方法によって、特定区間における対象音響信号に人の声による音響信号が含まれているか否かを検出することができる。人の声による音響信号が含まれている区間を特に発話区間とも呼ぶ。 Whether or not a target voice signal in a specific section includes a sound signal by human voice is disclosed in a known utterance section detection method (for example, Japanese Patent Laid-Open No. 10-257596) used in speech recognition processing or the like. Method). Specifically, for example, it is possible to detect whether or not an acoustic signal based on a human voice is included in a target acoustic signal in a specific section by a method based on pitch extraction using autocorrelation processing. A section including an acoustic signal from a human voice is also called an utterance section.
特定区間に1024サンプル分のデジタル音響信号が含まれている場合を考えて、解析部31にて採用可能な、発話区間の検出方法を説明する。特定区間の対象音響信号を形成する1024サンプル分のデジタル音響信号の内、t番目のデジタル音響信号の信号値をx(t)にて表す。tは、1〜1024の間の整数値をとる。
Considering a case where a digital acoustic signal for 1024 samples is included in a specific section, a method for detecting a speech section that can be employed by the
解析部31は、図9に示す如く、1〜128番目のデジタル音響信号から成るブロックを基準ブロックとして自己相関を計算する。つまり、特定区間内に、128個の連続するデジタル音響信号から成る評価ブロックを定義し、評価ブロックの時間的な位置を順次ずらしながら、基準ブロックと評価ブロックとの間の相関を求めてゆく。より具体的には、下記式(1)に従って自己相関値S(p)を算出する。自己相関値S(p)は、評価ブロックの位置を決める変数pの関数であり、pは、0≦p≦(1024−128)、を満たす各整数をとる。
As shown in FIG. 9, the
図10に、求められた自己相関値S(p)の変数p依存性を示す。図10において、横軸は、変数pである。図10は、特定区間における対象音響信号に人の声による音響信号が含まれている場合に対応している。対象音響信号に人の声帯振動によるピッチが含まれていると自己相関値S(p)が周期的に大きな値をとる。解析部31は、自己相関値S(p)が周期的に所定の閾値THAを超えており且つその周期の逆数である基本周波数が所定の周波数範囲RVOICEに収まる場合に、特定区間における対象音響信号に人の声による音響信号が含まれていると判断することができ(即ち、特定区間が発話区間であると判断することでき)、そうでない場合には、特定区間における対象音響信号に人の声による音響信号が含まれていないと判断することができる。例えば、不等式「S(p)>THA」を満たす変数pの間隔が一定(或いは略一定)の場合に、自己相関値S(p)が周期的に所定の閾値THAを超えていると判断する。人の声帯振動によるピッチ(基本周波数)は概ね80〜270Hzの帯域に存在するため、周波数範囲RVOICEの下限周波数及び上限周波数は例えば夫々50Hz及び300Hzに設定される。
FIG. 10 shows the variable p dependency of the calculated autocorrelation value S (p). In FIG. 10, the horizontal axis represents the variable p. FIG. 10 corresponds to the case where the target sound signal in the specific section includes a sound signal based on a human voice. When the target acoustic signal includes a pitch due to human vocal cord vibration, the autocorrelation value S (p) takes a large value periodically. When the autocorrelation value S (p) periodically exceeds a predetermined threshold TH A and the fundamental frequency that is the reciprocal of the period falls within the predetermined frequency range R VOICE , the
特定区間における対象音響信号に音楽による音響信号が含まれているか否かも、上述の発話区間の検出方法と同様の方法にて検出することができる。音楽による音響信号も一定の周期性を有しているからである。但し、一般的に音楽による音響信号の基本周波数は、人の声帯振動による音響信号のそれよりも高い。従って、解析部31は、自己相関値S(p)が周期的に所定の閾値THAを超えており且つその周期の逆数である基本周波数が所定の周波数範囲RVOICEの上限周波数を超えている場合に、特定区間における対象音響信号に音楽による音響信号が含まれていると判断することができる。
Whether or not the target acoustic signal in the specific section includes an acoustic signal based on music can be detected by the same method as the above-described detection method of the speech section. This is because the sound signal by music also has a certain periodicity. However, in general, the fundamental frequency of an acoustic signal due to music is higher than that of an acoustic signal due to human vocal cord vibration. Therefore, the
尚、音楽の音響信号の基本周波数が、仮に人の声のそれと同程度であったとしても、人の声に特有のスペクトル包絡(エンベロープ)が対象音響信号に見られるか否かを判定することにより、対象音響信号が人の声の音響信号であるか或いは音楽の音響信号であるかを区別することもできる。共振の影響により、人の声による音響信号の周波数スペクトルは、特定の周波数においてピークを持つ傾向がある。他方、このような傾向は音楽の音響信号には見られない。従って、特定区間における対象音響信号について自己相関値S(p)が周期的に所定の閾値THAを超えていて、対象音響信号に人の声又は音楽による音響信号が含まれていると判断されるとき、当該対象音響信号において上記傾向が存在するか否かを峻別することにより、当該対象音響信号が人の声による音響信号及び音楽による音響信号のどちらであるかを区別するようにしても良い。 In addition, even if the fundamental frequency of the acoustic signal of music is about the same as that of a human voice, it is determined whether or not a spectrum envelope (envelope) peculiar to the human voice can be seen in the target acoustic signal. Thus, it can be distinguished whether the target sound signal is a sound signal of a human voice or a sound signal of music. Due to the influence of resonance, the frequency spectrum of an acoustic signal generated by a human voice tends to have a peak at a specific frequency. On the other hand, such a tendency is not seen in the acoustic signal of music. Therefore, it is determined that the autocorrelation value S (p) for the target acoustic signal in the specific section periodically exceeds the predetermined threshold TH A , and the target acoustic signal includes an acoustic signal based on human voice or music. By distinguishing whether the above-mentioned tendency exists in the target acoustic signal, it is possible to distinguish whether the target acoustic signal is an acoustic signal based on a human voice or an acoustic signal based on music. good.
また、解析部31は、時間軸上の対象音響信号における信号値又はパワーの変化量の大小に基づいて、対象音響信号に、インパルス音による音響信号が含まれているか否かを判断することができる。具体的には例えば、対象音響信号における信号値又はパワーの、単位時間当たりの変化量が所定の閾値THBを超えている区間が、特定区間に存在している時、その区間中にインパルス音が存在していると判断することができると共に特定区間における対象音響信号にインパルス音による音響信号が含まれていると判断することができる。インパルス音として、野球のバットでボールを打った瞬間における打撃音や、太鼓をたたく音などが想定される。
Further, the
また、解析部31は、特定区間における対象音響信号に基づき、特定区間における対象音響信号中に動物の鳴き声による音響信号が含まれているか否かを判断することもできる。人の声の特徴に基づいて発話区間を検出するのと同様に、動物の鳴き声の特徴に基づいて動物の鳴き声が存在する区間を検出するようにすれば、上記判断は可能である。
Moreover, the
動物の鳴き声とは、具体的には、犬又は猫の鳴き声である。犬の鳴き声の場合、様々な犬の鳴き声を事前に学習して犬の鳴き声に関するデータベースを作成しておき、特定区間における対象音響信号と該データベースとを照合することで、特定区間における対象音響信号に犬の鳴き声による音響信号が含まれているか否かを判断することが可能である。この判断を、対象映像信号をも考慮した上で実行するようにしても良い。つまり例えば、特定区間における対象映像信号に基づいて特定区間における対象動画像中に犬の画像が含まれているかを映像信号解析部34において解析させ、その解析結果をも考慮した上で、特定区間における対象音響信号中に犬の鳴き声による音響信号が含まれているか否かの判断を行うようにしても良い。
Specifically, the animal cry is a dog or cat cry. In the case of dog calls, a database on dog calls is created in advance by learning various dog calls, and the target acoustic signal in a specific section is checked by comparing the target acoustic signal in the specific section with the database. It is possible to determine whether or not a sound signal from a dog cry is included. This determination may be performed in consideration of the target video signal. That is, for example, based on the target video signal in the specific section, the video
[伸張音響信号の生成方法]
次に、伸張部32による伸張音響信号の生成方法について説明する。伸張部32は、対象音響信号に、音源種類情報等に適応した伸張処理を施すことで伸張音響信号を生成する。音響信号に関する伸張処理とは、伸張処理の対象となる音響信号を時間方向に引き伸ばすことによって当該音響信号の信号長さを増大させる処理を指す。音響信号の信号長さとは、当該音響信号が存在する区間の時間長さを指す。伸張処理前の特定区間の時間長さはβ秒であるとする(βは任意の正の数)。本例において再生レートは撮影レートの1/10であるから伸張処理後の特定区間の時間長さは(10×β)秒であり、特定区間におけるβ秒分の対象音響信号の信号長さは、伸張処理によって10倍に引き伸ばされて(10×β)秒分の信号長さを有する伸張音響信号が生成される。勿論、伸張時間(伸張処理によって引き伸ばされる時間)は再生レートに合わせて変更され、例えば再生レートが遅くなるにつれて長くされる。
[Method for generating extended acoustic signal]
Next, a method for generating a stretched acoustic signal by the stretching
但し、再生レートに正確に対応する分だけ音響信号の伸張を行うと違和感のある音が再生される可能性もあるため、撮影レート及び再生レート間の差に相当する時間と伸張時間を一致させる必要は必ずしもない。つまり例えば、再生レートが撮影レートの1/10であるとき、図11に示す如く、β秒分の対象音響信号を時間軸上で6倍に引き伸ばすことで(6×β)秒分の音響信号を生成し、この(6×β)秒分の音響信号に(4×β)秒分の無音信号を接続することで、(10×β)秒分の伸張音響信号を生成するようにしても良い。無音信号とは、信号レベル及びパワーがゼロ(又は実質的にゼロ)の音響信号を指す。 However, if the sound signal is stretched by an amount corresponding to the playback rate accurately, a strange sound may be played back. Therefore, the time corresponding to the difference between the shooting rate and the playback rate is matched with the extension time. There is no necessity. That is, for example, when the playback rate is 1/10 of the shooting rate, as shown in FIG. 11, the target acoustic signal for β seconds is stretched 6 times on the time axis to obtain an acoustic signal for (6 × β) seconds. And (10 × β) seconds of extended sound signals are generated by connecting (4 × β) seconds of silence signals to (6 × β) seconds of sound signals. good. A silence signal refers to an acoustic signal having a signal level and power of zero (or substantially zero).
伸張部32にて採用可能な伸張処理として、以下に、単純伸張処理、ピッチ維持伸張処理、エコー処理及びリピート処理を説明する。
As expansion processing that can be employed by the
詳細な具体例は後述されるが、対象音響信号に種類の異なる複数の音源からの音響信号が含まれている場合(例えば、対象音響信号に人の声による音響信号と音楽による音響信号が混在している場合)、図12に示す如く、伸張部32は、その複数の音源からの音響信号を複数の分離音響信号として個別に対象音響信号から抽出しつつ各分離音響信号の音源の種類を解析した後、各分離音響信号に対して各分離音響信号の音源の種類に応じた伸張処理を施してから複数の分離音響信号を合成することにより伸張音響信号を生成する。
Although a specific example will be described later, when the target sound signal includes sound signals from a plurality of different sound sources (for example, the target sound signal includes a sound signal based on human voice and a sound signal based on music) 12), as shown in FIG. 12, the decompressing
従って、単純伸張処理やピッチ維持伸張処理等は、分離音響信号ごとに個別に実行される。このため、単純伸張処理やピッチ維持伸張処理等が分離音響信号に対して実行されることを想定して、それらの伸張処理の説明を行う。対象音響信号に単一の音源からの音響信号しか含まれていない場合には、対象音響信号に基づく分離音響信号は、対象音響信号そのものである。尚、図12は、対象音響信号に2種類の音源からの音響信号が含まれている場合における、伸張音響信号の生成過程のイメージ図である(あくまでイメージ図であり、図12の波形等の妥当性は低いことに留意すべきである)。 Accordingly, simple extension processing, pitch maintenance extension processing, and the like are executed individually for each separated acoustic signal. Therefore, assuming that simple extension processing, pitch maintenance extension processing, and the like are performed on the separated acoustic signal, the extension processing will be described. When the target acoustic signal includes only the acoustic signal from a single sound source, the separated acoustic signal based on the target acoustic signal is the target acoustic signal itself. FIG. 12 is an image diagram of the generation process of the extended acoustic signal in the case where the target acoustic signal includes acoustic signals from two types of sound sources (it is only an image diagram and the validity of the waveform and the like in FIG. 12) Note that is low).
――単純伸張処理――
単純伸張処理について説明する。単純伸張処理が施されるべき、特定区間の分離音響信号を音響信号A1と呼び、音響信号A1に単純伸張処理を施して得た音響信号を音響信号B1と呼ぶ。本例において、音響信号B1の存在する区間長さは、音響信号A1のそれの10倍である。図13は、単純伸張処理のイメージ図である。時間軸上において、音響信号A1を単純に10倍に引き伸ばすことで音響信号B1が得られる。従って、音響信号A1に含まれている周波数fの信号成分は、音響信号B1において周波数(f/10)の信号成分に変換される。単純伸張処理を施すと、当然ピッチが変化して音程が変質する。
-Simple extension processing-
The simple decompression process will be described. A separated acoustic signal in a specific section to be subjected to simple extension processing is called an acoustic signal A 1, and an acoustic signal obtained by performing simple extension processing on the acoustic signal A 1 is called an acoustic signal B 1 . In this example, the length of the section in which the acoustic signal B 1 exists is 10 times that of the acoustic signal A 1 . FIG. 13 is an image diagram of simple decompression processing. On the time axis, the acoustic signal B 1 is obtained by simply stretching the acoustic signal A 1 10 times. Therefore, the signal component of the frequency f included in the acoustic signal A 1 is converted into the signal component of the frequency (f / 10) in the acoustic signal B 1 . When the simple extension process is performed, the pitch is naturally changed and the pitch is changed.
尚、図11を参照して説明したように、音響信号A1を単純に6倍に引き伸ばすことで得た(6×β)秒分の音響信号に対して(4×β)秒分の無音信号を接続することで、(10×β)秒分の音響信号B1を生成するようにしても良い。 As described with reference to FIG. 11, (4 × β) seconds of silence for the (6 × β) seconds of the acoustic signal obtained by simply extending the acoustic signal A 1 by 6 times. By connecting the signals, the acoustic signal B 1 for (10 × β) seconds may be generated.
――ピッチ維持伸張処理――
ピッチ維持伸張処理について説明する。ピッチ維持伸張処理が施されるべき、特定区間の分離音響信号を音響信号A2と呼び、音響信号A2にピッチ維持伸張処理を施して得た音響信号を音響信号B2と呼ぶ。本例において、音響信号B2の存在する区間長さは、音響信号A2のそれの10倍である。
--Pitch maintenance and extension process--
The pitch maintaining / extending process will be described. A separated acoustic signal in a specific section to be subjected to the pitch maintaining / extending process is referred to as an acoustic signal A 2, and an acoustic signal obtained by performing the pitch maintaining / extending process on the acoustic signal A 2 is referred to as an acoustic signal B 2 . In this example, the length of the section in which the acoustic signal B 2 exists is 10 times that of the acoustic signal A 2 .
ピッチ維持伸張処理では、音響信号A2及びB2間でピッチが変化しないように音響信号の伸張が成される。この伸張の方法として、公知の話速変換方法を用いることができる。図14は、ピッチ維持伸張処理のイメージ図である。単純には例えば、音響信号A2のピッチに応じたブロック長にて特定区間を第1〜第Nのブロックに分割し(Nは2以上の整数)、第1のブロックにおける音響信号A2を10回繰り返した信号と、第2のブロックにおける音響信号A2を10回繰り返した信号と、・・・、第(N−1)のブロックにおける音響信号A2を10回繰り返した信号と、第Nのブロックにおける音響信号A2を10回繰り返した信号とを、この順番で接続することで音響信号B2を生成することができる。 In the pitch maintaining / extending process, the acoustic signal is extended so that the pitch does not change between the acoustic signals A 2 and B 2 . As the expansion method, a known speech speed conversion method can be used. FIG. 14 is an image diagram of the pitch maintaining / extending process. For example, the specific section is divided into first to Nth blocks with a block length corresponding to the pitch of the acoustic signal A 2 (N is an integer of 2 or more), and the acoustic signal A 2 in the first block is and 10 times repeated signal, and the signal was repeated acoustic signal a 2 10 times in the second block, ..., a (N-1) th signal repeated acoustic signal a 2 10 times in a block of, the The acoustic signal B 2 can be generated by connecting the signals obtained by repeating the acoustic signal A 2 in the N blocks 10 times in this order.
尚、図11を参照して説明したように、第1のブロックにおける音響信号A2を6回繰り返した信号と、第2のブロックにおける音響信号A2を6回繰り返した信号と、・・・、第(N−1)のブロックにおける音響信号A2を6回繰り返した信号と、第Nのブロックにおける音響信号A2を6回繰り返した信号と、(4×β)秒分の無音信号とを、この順番で接続することで音響信号B2を生成するようにしても良い。但し、この方法では、音響信号B2の後半に無音信号が偏る。このような偏りを回避するために、第1のブロックにおける音響信号A2を6回繰り返した信号と、(4×BL[1])秒分の無音信号と、第2のブロックにおける音響信号A2を6回繰り返した信号と、(4×BL[2])秒分の無音信号と、・・・、第(N−1)のブロックにおける音響信号A2を6回繰り返した信号と、(4×BL[N-1])秒分の無音信号と、第Nのブロックにおける音響信号A2を6回繰り返した信号と、(4×BL[N])秒分の無音信号とを、この順番で接続することで音響信号B2を生成するようにしても良い。ここで、BL[i]は、第iのブロックにおけるブロック長(即ち、第iのブロックの時間長さ)を表している(iは整数)。 As described with reference to FIG. 11, the signal obtained by repeating the acoustic signal A 2 in the first block six times, the signal obtained by repeating the acoustic signal A 2 in the second block six times,... , A signal obtained by repeating the acoustic signal A 2 in the (N−1) th block 6 times, a signal obtained by repeating the acoustic signal A 2 in the Nth block 6 times, and a silence signal for (4 × β) seconds and it may generate an acoustic signal B 2 by connecting in this order. However, in this method, silent signal is biased in the second half of the audio signal B 2. In order to avoid such a bias, a signal obtained by repeating the acoustic signal A 2 in the first block six times, a silence signal for (4 × B L [1] ) seconds, and an acoustic signal in the second block A signal obtained by repeating A 2 6 times, a silence signal corresponding to (4 × B L [2] ) seconds, a signal obtained by repeating the acoustic signal A 2 in the (N−1) th block 6 times, , (4 × B L [N-1] ) seconds of silence signal, a signal obtained by repeating the acoustic signal A 2 in the Nth block 6 times, and (4 × B L [N] ) seconds of silence signal May be generated in this order to generate the acoustic signal B 2 . Here, B L [i] represents the block length in the i-th block (that is, the time length of the i-th block) (i is an integer).
――エコー処理――
エコー処理について説明する。エコー処理が施されるべき、特定区間の分離音響信号を音響信号A3と呼び、音響信号A3にエコー処理を施して得た音響信号を音響信号B3と呼ぶ。本例において、音響信号B3の存在する区間長さは、音響信号A3のそれの10倍である。
--Echo processing--
The echo process will be described. A separated acoustic signal in a specific section to be subjected to echo processing is called an acoustic signal A 3, and an acoustic signal obtained by performing echo processing on the acoustic signal A 3 is called an acoustic signal B 3 . In this example, the section length in which the acoustic signal B 3 exists is 10 times that of the acoustic signal A 3 .
エコー処理では、音響信号A3と同じ音響信号を、信号レベルを徐々に低減させながら複数回繰り返す。図15は、エコー処理のイメージ図である。音響信号B3は、エコー信号A3[1]、A3[2]、A3[3]、A3[4]、A3[5]、A3[6]、A3[7]、A3[8]、A3[9]及びA3[10]をこの順番で接続した信号である。ここで、エコー信号A3[i]の信号波形と音響信号A3の信号波形は相似であり、エコー信号A3[i+1]の信号レベル及びパワーは、エコー信号A3[i]の信号レベル及びパワーよりも小さい(iは整数)。従って、音響信号B3を再生すると、音量が徐々に小さくなりつつ音響信号A3が繰り返し再生されることになる。例えば、音響信号A3がバッティングの打撃音である「カキーン」という音であるならば、エコー処理を経た再生により、「カキーン」という音が徐々に音量が小さくされつつ10回繰り返し再生されることになる。 In the echo processing, the same acoustic signal as the acoustic signal A 3 is repeated a plurality of times while gradually reducing the signal level. FIG. 15 is an image diagram of echo processing. Acoustic signal B 3 is an echo signal A 3 [1], A 3 [2], A 3 [3], A 3 [4], A 3 [5], A 3 [6], A 3 [7], A 3 [8] , A 3 [9] and A 3 [10] are connected in this order. Here, the signal waveform of the echo signal A 3 [i] and the signal waveform of the acoustic signal A 3 are similar, and the signal level and power of the echo signal A 3 [i + 1] are the same as those of the echo signal A 3 [i] . It is smaller than the signal level and power (i is an integer). Therefore, when the acoustic signal B 3 is reproduced, the acoustic signal A 3 is repeatedly reproduced while the volume gradually decreases. For example, if the acoustic signal A 3 is a sound of “Kakkin” that is a batting sound, the sound of “Kakkin” is repeatedly reproduced 10 times while the volume is gradually reduced by the reproduction through the echo process. become.
尚、図11を参照して説明したように、エコー信号A3[1]、A3[2]、A3[3]、A3[4]、A3[5]及びA3[6]を接続した信号と、(4×β)秒分の無音信号とを接続した信号を音響信号B3として生成するようにしても良い。また、再生レートに応じて、エコーの回数(即ち、エコー信号A3[i]を繰り返す回数)、エコーをかける時間(即ち、エコー信号A3[i]が繰り返される時間)、及び/又は、エコー信号の減衰率(即ち、エコー信号A3[i+1]の信号レベルの、エコー信号A3[i]の信号レベルに対する減衰率)を変更するようにしても良い。 As described with reference to FIG. 11, the echo signals A 3 [1] , A 3 [2] , A 3 [3] , A 3 [4] , A 3 [5] and A 3 [6] May be generated as the acoustic signal B 3 by connecting a signal connecting the two and a silence signal for (4 × β) seconds. Depending on the playback rate, the number of echoes (that is, the number of times the echo signal A 3 [i] is repeated), the time for applying the echo (that is, the time that the echo signal A 3 [i] is repeated), and / or The attenuation rate of the echo signal (that is, the attenuation rate of the signal level of the echo signal A 3 [i + 1] with respect to the signal level of the echo signal A 3 [i] ) may be changed.
――リピート処理――
リピート処理について説明する。リピート処理が施されるべき、特定区間の分離音響信号を音響信号A4と呼び、音響信号A4にリピート処理を施して得た音響信号を音響信号B4と呼ぶ。本例において、音響信号B4の存在する区間長さは、音響信号A4のそれの10倍である。
-Repeat processing-
The repeat process will be described. A separated acoustic signal in a specific section to be subjected to the repeat processing is referred to as an acoustic signal A 4, and an acoustic signal obtained by performing the repeat processing on the acoustic signal A 4 is referred to as an acoustic signal B 4 . In this example, the length of the section in which the acoustic signal B 4 exists is 10 times that of the acoustic signal A 4 .
リピート処理では、音響信号A4と同じ音響信号を単純に複数回繰り返す。つまり、音響信号B4は、リピート信号A4[1]、A4[2]、A4[3]、A4[4]、A4[5]、A4[6]、A4[7]、A4[8]、A4[9]及びA4[10]をこの順番で接続した信号であり、リピート信号A4[1]〜A4[10]の夫々は、信号レベルも含め、音響信号A4と同じものである。従って例えば、音響信号A4が或る音楽の音響信号である場合、リピート処理を経て得られた音響信号B4の再生時には、その音楽が音程の変質等を伴うことなく、(10×β)秒分の特定区間において通常の再生速度で繰り返し再生される。 In the repeat processing, the same acoustic signal as the acoustic signal A 4 is simply repeated a plurality of times. That is, the acoustic signal B 4 is a repeat signal A 4 [1] , A 4 [2] , A 4 [3] , A 4 [4] , A 4 [5] , A 4 [6] , A 4 [7 ] , A4 [8] , A4 [9] and A4 [10] are connected in this order, and each of the repeat signals A4 [1] to A4 [10] includes the signal level. This is the same as the acoustic signal A 4 . Therefore, for example, when the acoustic signal A 4 is an acoustic signal of a certain music, at the time of reproducing the acoustic signal B 4 obtained through the repeat process, the music is not accompanied by a change in pitch (10 × β). Playback is repeated at a normal playback speed in a specific section of seconds.
伸張部32は、音源種類情報等に応じて分離音響信号に対して成すべき伸張処理の内容を変更する。例えば、注目した分離音響信号の音源の種類が人の声であると判断される場合においては、その注目した分離音響信号に対してピッチ維持伸張処理を行い、注目した分離音響信号の音源の種類がインパルス音であると判断される場合においては、その注目した分離音響信号に対してエコー処理を行うことができる。
The
また例えば、注目した分離音響信号の音源の種類が音楽であると判断される場合においては、その注目した分離音響信号に対してリピート処理を行うことができる、或いは、その注目した分離音響信号を削除するようにしても良い(つまり、音楽の信号成分を伸張音響信号から除外するようにしても良い)、更に或いは、その注目した分離音響信号の信号レベルを低減するようにしても良い。或る特定の音響信号を削除するとは、その特定の音響信号の信号成分が伸張音響信号に含まれなくなるように、その特定の音響信号の信号成分を伸張処理の過程で対象音響信号から削除する操作を指す。このように、分離音響信号の音源の種類が人の声であるのか否かに応じて伸張処理の方法を変更することができる。また、映像解析情報にも応じて伸張処理の内容を決定するようにしても良い(映像解析情報の利用例は、後述の第2の伸張具体例にて詳説)。 For example, when it is determined that the type of the sound source of the separated sound signal of interest is music, repeat processing can be performed on the separated sound signal of interest, or the separated sound signal of interest is It may be deleted (that is, the signal component of music may be excluded from the extended acoustic signal), or the signal level of the separated separated acoustic signal may be reduced. To delete a specific acoustic signal, the signal component of the specific acoustic signal is deleted from the target acoustic signal during the expansion process so that the signal component of the specific acoustic signal is not included in the expanded acoustic signal. Refers to an operation. In this way, the expansion processing method can be changed depending on whether the type of the sound source of the separated acoustic signal is a human voice. Further, the contents of the decompression process may be determined in accordance with the video analysis information (a use example of the video analysis information will be described in detail in a second specific decompression example described later).
次に、音源種類情報等に基づく伸張処理の、様々な状況に応じた具体例として、第1〜第4の伸張具体例を説明する。 Next, first to fourth expansion specific examples will be described as specific examples according to various situations of the expansion processing based on the sound source type information and the like.
[第1の伸張具体例]
第1の伸張具体例を説明する。第1の伸張具体例では、野球の試合においてバッターがバットでボールを打撃する様子が対象動画像として撮影されたことを想定する。そして、対象音響信号には、バットでボールを打撃する時に生じる打撃音の音響信号に加え、野球の出場選手を応援している人の歓声の音響信号が含まれているものとする。
[First example of expansion]
A first example of expansion will be described. In the first extension specific example, it is assumed that a batter hitting a ball with a bat in a baseball game was shot as a target moving image. The target acoustic signal includes an acoustic signal of a cheer of a person who is cheering a baseball player in addition to an acoustic signal of a hitting sound generated when the ball is hit with a bat.
解析部31及び伸張部32は、対象音響信号を解析することで対象音響信号から打撃音の音響信号と歓声の音響信号を別々に分離音響信号として抽出し、打撃音の分離音響信号に対してはエコー処理を施す一方で歓声の分離音響信号に対してはピッチ維持伸張処理を施す。そして、エコー処理後の打撃音の分離音響信号とピッチ維持伸張処理後の歓声の分離音響信号を合成することで伸張音響信号を生成する。
The
図16(a)は、第1の伸張具体例の想定下における対象音響信号及び対象動画像の通常再生のイメージ図であり、図16(b)は、第1の伸張具体例に係る、伸張音響信号の再生を伴う対象動画像のスロー再生のイメージ図である。対象動画像のスロー再生時には、歓声がピッチを維持した状態でスロー再生される一方で打撃の瞬間が表示される周辺区間においては打撃音である「カキーン」という音が音量の漸次低減を伴いながら繰り返し出力される。尚、このシーンでは、打撃の瞬間が最も重要なタイミングであるため、打撃の瞬間を含む区間においては、歓声の音量をなるだけ低減させることが望ましい。 FIG. 16A is an image diagram of normal reproduction of the target sound signal and target moving image under the assumption of the first extension specific example, and FIG. 16B is an extension sound according to the first extension specific example. It is an image figure of slow reproduction of the object moving picture accompanied with reproduction of a signal. During slow playback of the target video, the cheering sound is played slowly while maintaining the pitch, while in the surrounding section where the moment of striking is displayed, the sound of “Kakein”, which is a striking sound, is accompanied by a gradual decrease in volume. Output repeatedly. In this scene, since the moment of hitting is the most important timing, it is desirable to reduce the volume of cheers as much as possible in the section including the moment of hitting.
第1の伸張具体例における分離音響信号及び伸張音響信号の生成方法を、より具体的に説明する。図17に示す如く、対象音響信号の全区間が3つの区間P1A、P1B及びP1Cに分類され、区間P1A及びP1Cには歓声の音響信号のみが存在し、区間P1Bには打撃音と歓声の音響信号が存在する場合を想定する。 A method for generating the separated acoustic signal and the extended acoustic signal in the first extension specific example will be described more specifically. As shown in FIG. 17, all the sections of the target acoustic signal are classified into three sections P 1A , P 1B and P 1C , and only the cheering sound signal exists in the sections P 1A and P 1C , and in the section P 1B Assume that there is a sound signal of hitting sound and cheers.
区間P1A及びP1Cにおける対象音響信号には歓声(即ち、人の声)の音響信号のみが含まれているため、解析部31は、上述した方法によって、区間P1A及びP1Cにおける対象音響信号に人の声による音響信号が含まれていることを容易に知ることができる。更に、解析部31は、区間P1Bを特定区間とみなした上で、特定区間の対象音響信号にインパルス音による音響信号が含まれているか否かを判断する上述の方法を用いることで、区間P1Bにおける対象音響信号にインパルス音による音響信号が含まれていることを知ることができる。
Since the target acoustic signals in the sections P 1A and P 1C include only a cheering (ie, human voice) acoustic signal, the
区間P1A及びP1Cにおける対象音響信号に人の声の音響信号が含まれているため、解析部31又は伸張部32は、区間P1Bにおける対象音響信号にも人の声の音響信号が含まれていると推測することができる。伸張部32は、区間P1Bにおける対象音響信号から人の声の音響信号とインパルス音(今の例において打撃音)の音響信号を分離抽出すべく、区間P1Bにおける時間軸上の対象音響信号に対してフーリエ変換を行うことで区間P1Bにおける周波数軸上の対象音響信号、即ち、区間P1Bにおける対象音響信号の周波数スペクトルを生成する。フーリエ変換として、離散フーリエ変換が用いられる。
Since the target acoustic signals in the sections P 1A and P 1C include the human voice acoustic signal, the
図18(a)におけるグラフには、区間P1Bにおける対象音響信号の周波数スペクトル310の各スペクトル成分が示されている。周波数スペクトル310は、実線311で表される人の声のスペクトル成分と破線312で表されるインパルス音のスペクトル成分とを足し合わせたものとなる。人の声のスペクトル成分311は周波数の変化に対して周期的に変動する一方、広範な周波数成分の足し合わせに相当するインパルス音のスペクトル成分312は周波数の変化に対して周期的に変動するような性質を有さない。
In the graph in FIG. 18A, each spectrum component of the
このような性質に注目し、伸張部32は、周波数スペクトル310に対して、もう一度、フーリエ変換を施す。周波数軸上の音響信号にフーリエ変換を施すことで、音響信号がF軸上の音響信号に変換されるものとする。図18(b)におけるグラフは、区間P1BにおけるF軸上の対象音響信号320を表している。F軸上の対象音響信号320は、実線321で表される人の声の信号成分と破線322で表されるインパルス音の信号成分とを足し合わせたものとなる。上述したような性質から、F軸上では、人の声の信号成分とインパルス音の信号成分とが分離して存在することとなる。周波数軸上の或る注目音響信号が周波数の変化に対して周期的に変動している場合において、その変動の周期が短くなると、F軸上における注目音響信号はより高域側にシフトするものとする。
Paying attention to such a property, the
伸張部32は、信号成分321の、F軸上の周波数が所定の音声周波数範囲に収まっている場合、信号成分321は人の声の信号成分であると判断することができ、そうでない場合、信号成分321は人の声の信号成分ではないと判断することができる。今、信号成分321の、F軸上の周波数が所定の音声周波数範囲に収まっているものとする。
The
伸張部32は、F軸上の対象音響信号320の内、F軸の高域側に位置している信号成分(即ち、信号成分321)が人の声の信号成分であって且つF軸の低域側に位置している信号成分(即ち、信号成分322)がインパルス音の信号成分であるとみなし、前者の信号成分(即ち、信号成分321)と後者の信号成分(即ち、信号成分322)に対して個別に2回、逆フーリエ変換を施す。逆フーリエ変換として、離散逆フーリエ変換が用いられる。これにより、信号成分321から、区間P1Bにおける人の声による時間軸上の分離音響信号が生成され、信号成分322から、区間P1Bにおけるインパルス音による時間軸上の分離音響信号が生成される。尚、区間P1Aにおける人の声による時間軸上の分離音響信号(即ち、区間P1Aにおける対象音響信号)及び/又は区間P1Cにおける人の声による時間軸上の分離音響信号(即ち、区間P1Cにおける対象音響信号)から、区間P1Bにおける人の声による時間軸上の分離音響信号を推定するようにしても良い。
In the
逆フーリエ変換を介して得た、区間P1Bにおける人の声及びインパルス音の分離音響信号に対して、互いに異なる伸張処理が施される。一方、区間P1A及びP1Cにおける対象音響信号には人の声の音響信号しか含まれていないため、区間P1A及びP1Cに対しては対象音響信号そのものにピッチ維持伸張処理が施される。つまり、伸張部32は、区間P1Aにおける対象音響信号、区間P1Bにおける人の声の分離音響信号及び区間P1Cにおける対象音響信号にピッチ維持伸張処理を施して時間的に接続することで伸張音響信号の第1成分を生成し、一方で、区間P1Bにおけるインパルス音の分離音響信号に対してエコー処理を施すことで伸張音響信号の第2成分を生成する。ここで、伸張音響信号の第1成分は全区間における音響信号を含むが、伸張音響信号の第2成分は区間P1Bにおける音響信号しか含まない。伸張部32は、伸張音響信号の第1成分及び第2成分を合成することで、最終的な伸張音響信号を生成する。
Different extension processes are performed on the separated voice signals of the human voice and the impulse sound in the section P 1B obtained through the inverse Fourier transform. On the other hand, since the target acoustic signals in the sections P 1A and P 1C include only the sound signal of the human voice, the target acoustic signals themselves are subjected to pitch maintenance / extension processing for the sections P 1A and P 1C . . That is, the
上述のようにして得られる伸張音響信号を映像のスロー再生と共に再生することで、野球の打撃シーンを迫力のあるシーンとして再生することができる。 By playing the extended acoustic signal obtained as described above together with the slow playback of the video, the baseball batting scene can be played as a powerful scene.
[第2の伸張具体例]
第2の伸張具体例を説明する。第2の伸張具体例では、公園などにおいて子供の遊んでいる様子が対象動画像として撮影されたことを想定する。撮影対象となる子供を、特に注目人物と呼ぶ。そして、対象音響信号には、注目人物の声の音響信号に加え、公園内にいる他の人(以下、非注目人物という)の声の音響信号が含まれていることを想定する。
[Second specific example]
A second example of expansion will be described. In the second extension specific example, it is assumed that a child playing in a park or the like is captured as a target moving image. A child to be photographed is particularly called a person of interest. Then, it is assumed that the target acoustic signal includes an acoustic signal of a voice of another person in the park (hereinafter referred to as a non-attention person) in addition to the acoustic signal of the voice of the person of interest.
図19(a)は、第2の伸張具体例の想定下における対象音響信号及び対象動画像の通常再生のイメージ図であり、図19(b)は、第2の伸張具体例に係る、伸張音響信号の再生を伴う対象動画像のスロー再生のイメージ図である。対象動画像のスロー再生時には、注目人物の声がピッチを維持した状態でスロー再生される。 FIG. 19A is an image diagram of normal reproduction of the target sound signal and target moving image under the assumption of the second extension specific example, and FIG. 19B is an extension sound according to the second extension specific example. It is an image figure of slow reproduction of the object moving picture accompanied with reproduction of a signal. At the time of slow playback of the target moving image, the voice of the person of interest is played back slowly while maintaining the pitch.
第2の伸張具体例では、伸張音響信号の生成に当たり、対象音響信号の解析結果に加えて対象映像信号の解析結果もが利用される。具体的には、以下のように処理される。 In the second extension specific example, the analysis result of the target video signal is used in addition to the analysis result of the target sound signal in generating the extension sound signal. Specifically, the processing is as follows.
映像信号解析部34は、対象映像信号に基づき、基準顔サイズ以上の大きさを有する人の顔が対象動画像上に含まれているか否かを判断する。今、対象動画像上に注目人物の顔が存在しており、対象動画像上における注目人物の顔の大きさが所定の基準顔サイズ以上であったとする。そうすると、映像信号解析部34は、基準顔サイズ以上の大きさを有する顔(人の顔)が対象動画像上に含まれていると判断し、その判断結果を含む映像解析情報を伸張部32に送る。このような映像解析情報が送られてくると、伸張部32は、その映像解析情報と解析部31から音源種類情報に基づき、対象音響信号に対してピッチ維持伸張処理だけでなく正面音強調処理を施し、それらの処理後の対象音響信号を伸張音響信号として出力する。尚、対象動画像上に基準顔サイズ以上の大きさを有する人の顔が含まれていない場合、対象音響信号に対して正面音強調処理は成されない。
Based on the target video signal, the video
正面音強調処理は、対象音響信号の内、撮像装置1の正面方向から到来した音(以下、正面音という)の信号成分を強調する処理、または、それ以外の方向から到来した音(以下、非正面音)の信号成分を低減する処理である。或いは、前者の処理と後者の処理を共に正面音強調処理において実行するようにしても良い。 The front sound enhancement process is a process of enhancing a signal component of a sound that has arrived from the front direction of the imaging device 1 (hereinafter referred to as a front sound) in the target sound signal, or a sound that has arrived from another direction (hereinafter, referred to as a front sound). This is processing for reducing signal components of non-frontal sound. Alternatively, both the former process and the latter process may be executed in the front sound enhancement process.
例えば、図20に示す如く、左チャンネルのマイクロホン13Lの振動板中心と右チャンネルのマイクロホン13Rの振動板中心との中点を原点Oとし、両振動板中心を結ぶ直線をX軸とし、X軸と直交し且つ原点Oを通る直線をY軸と定義する。XY座標面は、X軸及びY軸を座標軸として持つ座標面である。更に、マイクロホン13Lからマイクロホン13Rに向かう方向がX軸の正の方向であって、原点OからY軸の正側に向かう方向が撮像装置1にとっての前方であると定義する(図4も参照)。図20において、線分331及び332は、原点Oを通り且つY軸と30°の角度を以って交差する線分である。但し、線分331は原点OからXY座標面上の第1象限に向かって伸び、線分332は原点OからXY座標面上の第2象限に向かって伸びる。Y軸は、撮像部11の光軸と略平行であり、線分331から線分332に向かう時に横切る、60°の範囲内に位置する物体が概ね撮像部11の撮像対象となる。説明の簡略化上、X軸及びY軸の夫々に直交するZ軸方向の存在を無視するが、実際には、撮像部11の撮影範囲はZ軸方向にも広がっている。
For example, as shown in FIG. 20, the midpoint between the diaphragm center of the
XY座標面の第1象限内であって且つ線分331よりもY軸側に位置する音源から到来する音及びXY座標面の第2象限内であって且つ線分332よりもY軸側に位置する音源から到来する音を正面音とみなし、それら以外の音源からの音を非正面音とみなす。正面音強調処理では、左チャンネルの対象音響信号及び右チャンネルの対象音響信号の位相差に基づき、左チャンネル及び右チャンネルの対象音響信号の内、正面音の音響信号成分を強調する、及び/又は、非正面音の音響信号成分を低減する(非正面音の音響信号成分を完全に削除するようにしても良い)。尚、位相差情報に基づき特定方向から到来した音の信号成分を強調又は低減する方法として、公知の方法を含む任意の方法を用いることができる。
Sound coming from a sound source located in the first quadrant of the XY coordinate plane and closer to the Y axis than the
上述のようなピッチ維持伸張処理及び正面音強調処理を介して得られる伸張音響信号を再生すると、注目人物の声のピッチが維持された状態で、注目人物の声の音量が非注目人物のそれに対して大きくなり、注目人物の声が聴きとりやすくなる。 When the extended acoustic signal obtained through the pitch maintaining / extending process and the front sound emphasizing process as described above is reproduced, the volume of the voice of the person of interest is that of the non-person of interest while the pitch of the voice of the person of interest is maintained. On the other hand, it becomes louder and it becomes easier to hear the voice of the person of interest.
尚、対象動画像から登録人物の顔が検出された場合にのみ、上述の正面音強調処理を行うようにしても良い。つまり、注目人物となるべき登録人物の顔画像を予め撮像装置1に登録しておき、映像信号解析部34にて、対象映像信号に基づき該顔画像と対象動画像の各部の画像とを対比することで対象動画像上に登録人物の顔が存在しているか否かを検出する。そして、対象動画像上に登録人物の顔が存在していると判断された場合にのみ、上述の正面音強調処理を行うようにしても良い。
Note that the above-described front sound enhancement processing may be performed only when a registered person's face is detected from the target moving image. That is, a face image of a registered person to be a person of interest is registered in the
[第3の伸張具体例]
第3の伸張具体例を説明する。第3の伸張具体例では、運動会の徒競走において注目人物がゴール地点を走り抜ける様子が対象動画像として撮影されたことを想定する。そして、対象音響信号には、徒競走の審判による「ゴール」という掛け声(以下、ゴール発声という)の音響信号、周辺で応援している人の歓声による音響信号、及び、周辺で鳴っている音楽(以下、BGMという)の音響信号が含まれているものとする。また、対象音響信号において、ゴール発声の音響信号の信号レベルは、歓声のそれよりも十分に大きいものとする。
[Third specific example of expansion]
A third decompression example will be described. In the third extension specific example, it is assumed that a state in which a target person runs through a goal point during an athletic meet is photographed as a target moving image. The target acoustic signal includes an acoustic signal of a “goal” call (hereinafter referred to as “goal utterance”) by a referee of an athlete race, an acoustic signal from a cheer of a person cheering in the vicinity, and music ( Hereinafter, it is assumed that an acoustic signal of BGM) is included. In the target sound signal, the signal level of the sound signal of the goal utterance is sufficiently higher than that of the cheer.
解析部31及び伸張部32は、対象音響信号を解析することで対象音響信号からゴール発声の音響信号、歓声による音響信号及びBGMの音響信号を別々に分離音響信号として抽出し、ゴール発声の分離音響信号に対してはピッチ維持伸張処理(又はエコー処理)を施し、歓声の分離音響信号に対しては音量を低減しつつピッチ維持伸張処理を施し、BGMの分離音響信号に対してはリピート処理を施す。そして、それらの処理後の分離音響信号を合成することで伸張音響信号を生成する。尚、BGMの分離音響信号の音量を低減させた上でリピート処理を行うようにしても良いし、BGMの分離音響信号を削除するようにしても良い。
The analyzing
図21(a)は、第3の伸張具体例の想定下における対象音響信号及び対象動画像の通常再生のイメージ図であり、図21(b)は、第3の伸張具体例に係る、伸張音響信号の再生を伴う対象動画像のスロー再生のイメージ図である。 FIG. 21A is an image diagram of normal reproduction of the target sound signal and the target moving image under the assumption of the third extension example, and FIG. 21B is an extension sound according to the third extension example. It is an image figure of slow reproduction of the object moving picture accompanied with reproduction of a signal.
第3の伸張具体例における分離音響信号及び伸張音響信号の生成方法を、より具体的に説明する。図22に示す如く、対象音響信号の全区間が3つの区間P2A、P2B及びP2Cに分類され、区間P2A及びP2Cには歓声及びBGMの音響信号のみが存在し、区間P2Bには歓声及びBGMの音響信号に加え、ゴール発声の音響信号が存在する場合を想定する。 A method for generating the separated acoustic signal and the extended acoustic signal in the third extension specific example will be described more specifically. As shown in FIG. 22, all sections of the target acoustic signal are classified into three sections P 2A , P 2B and P 2C , and only the cheering and BGM acoustic signals exist in the sections P 2A and P 2C , and the section P 2B Suppose that there is an acoustic signal of goal utterance in addition to the cheering and BGM acoustic signals.
まず、区間P2Bに対する伸張方法について説明する。解析部32は、区間P2Bを特定区間とみなした上で、上述した方法を用いることにより、区間P2Bの対象音響信号に人の声による音響信号が含まれているか否か、及び、区間P2Bの対象音響信号に音楽による音響信号が含まれているか否かを検出することができる。第3の伸張具体例における想定下では、区間P2Bの対象音響信号に人の声及び音楽による音響信号が含まれていると検出される。
First, the expansion method for the section P 2B will be described. The
伸張部32は、区間P2Bにおける対象音響信号から人の声の音響信号と音楽(今の例においてBGM)の音響信号を分離抽出すべく、区間P2Bにおける時間軸上の対象音響信号に対してフーリエ変換を行うことで区間P2Bにおける周波数軸上の対象音響信号、即ち、区間P2Bにおける対象音響信号の周波数スペクトルを生成する。
図23(a)、(b)及び(c)のグラフに示される周波数スペクトル361、362及び363は、夫々、ゴール発声による音響信号の周波数スペクトル、歓声による音響信号の周波数スペクトル及びBGMによる音響信号の周波数スペクトルである。実際には、スペクトル361〜363を足し合わせたものが区間P2Bの対象音響信号の周波数スペクトルとして生成されるため、周波数軸上においてスペクトル361〜363を分離することはできない。
The
但し、対象音響信号においてゴール発声の信号レベルが歓声のそれよりも十分に大きく、且つ、人の声の基本周波数は音楽のそれよりも随分低い。これを考慮し、伸張部32は、スペクトル361〜363の合成スペクトルである、区間P2Bの対象音響信号の周波数スペクトルに対して、もう一度、フーリエ変換を施す。図24(a)におけるグラフは、区間P2BにおけるF軸上の対象音響信号370を表している。F軸上の対象音響信号370は、曲線371で表される人の声の信号成分と曲線372で表される音楽の信号成分(即ち、BGMの信号成分)とを足し合わせたものとなる。人の声の基本周波数は音楽のそれよりも随分低いという性質から、F軸上では、人の声の信号成分と音楽の信号成分とが分離して存在している。
However, in the target acoustic signal, the signal level of the goal utterance is sufficiently higher than that of the cheers, and the fundamental frequency of the human voice is much lower than that of the music. Considering this, the
曲線371で表される人の声の信号成分には、信号レベルの比較的大きいゴール発声による信号成分と信号レベルの比較的小さい歓声による信号成分とが混在している。図24(b)の破線381内は前者の信号成分を表し、図24(c)の破線382及び383内は後者の信号成分を表している。尚、ゴール発声が一人の人の声によって形成されているのに対して、歓声は複数人の声によって形成されているため、F軸上において歓声の信号成分の広がりはゴール発声のそれよりも大きくなっている。
The signal component of the human voice represented by the
破線381、382及び383内の信号成分が存在する、F軸上の領域を、夫々、符号391、392及び393によって表す(図24(b)及び(c)参照)。F軸上において、領域391〜393は互いに重なり合わない領域であると共に、領域393は領域391よりも高域側に位置し、領域391は領域392よりも高域側に位置する。
Regions on the F axis where the signal components within the
伸張部32は、F軸上において、信号成分の周波数が所定の音声周波数範囲に収まっている場合、その信号成分は人の声の信号成分であると判断することができ、そうでない場合、その信号成分は人の声の信号成分ではないと判断することができる。今、信号成分371が上記音声周波数範囲に収まっている一方、信号成分372が上記音声周波数範囲に収まっていないものとする。更に、信号成分371の最大レベルが所定の基準レベルよりも大きく且つF軸上における信号成分371の広がりが所定の基準広がりよりも大きい時、信号成分371に、主要音声による音響信号と非主要音声による音響信号が混在していると判断することができる。今、そのような混在が発生していると判断されたものとする。主要音声はゴール音声に相当し、非主要音声は歓声に相当する。信号成分371の内、基準レベル以上の信号レベルを有している部分が領域391内の信号成分であり、基準レベル未満の信号レベルを有している部分が領域392及び393内の信号成分であるとする。
When the frequency of the signal component is within a predetermined audio frequency range on the F axis, the
この場合、伸張部32は、信号成分372が音楽の信号成分(又は人の声以外の何らかの信号成分)であるとみなし、信号成分372に対して2回逆フーリエ変換を施すことで、区間P2BにおけるBGMの時間軸上の分離音響信号を生成する。一方、信号成分371の内、基準レベル以上の信号レベルを有している信号成分(即ち、領域391内の信号成分)に対して2回逆フーリエ変換を施すことで、区間P2Bにおけるゴール発声の時間軸上の分離音響信号を生成し、信号成分371の内、基準レベル以上の信号レベルを有していない信号成分(即ち、領域392及び393内の信号成分)に対して2回逆フーリエ変換を施すことで、区間P2Bにおける歓声の時間軸上の分離音響信号を生成する。但し、F軸上の領域391内の信号成分には歓声の音響信号成分も含まれているため、ここで生成されるゴール発声の時間軸上の分離音響信号には、実際には、歓声の音響信号成分も含まれている。
In this case, the decompressing
他方、区間P2A及びP2Cにおける対象音響信号には歓声の音響信号とBGMの音響信号しか含まれていないため、それらの分離は容易である。即ち、区間P2Aにおける時間軸上の対象音響信号を2回フーリエ変換することで、区間P2Aにおける対象音響信号をF軸上の信号に変換する。そして、区間P2Aにおける対象音響信号に人の声と音楽の音響信号が含まれているという前提の下、区間P2AにおけるF軸上の対象音響信号の内、音声周波数範囲に収まっている信号成分を人の声(即ち、歓声)の信号成分であるとみなす一方、音声周波数範囲に収まっていない信号成分を音楽(即ち、BGM)の信号成分であるとみなし、F軸上における人の声の信号成分と音楽の信号成分に対して個別に2回逆フーリエ変換を施す。これにより、区間P2Aにおいて、F軸上の人の声の信号成分から人の声による時間軸上の分離音響信号が生成され、F軸上の音楽の信号成分からBGMによる時間軸上の分離音響信号が生成される。区間P2Cについても同様である。 On the other hand, since the target acoustic signals in the sections P 2A and P 2C include only the cheering acoustic signal and the BGM acoustic signal, they can be easily separated. That is, by twice the Fourier transform of the target sound signal on the time axis in the section P 2A, converts the target sound signal in the interval P 2A to the signal on the F-axis. Then, on the assumption that the target acoustic signal in the section P 2A includes human voice and music acoustic signals, the signals within the voice frequency range among the target acoustic signals on the F axis in the section P 2A While the component is regarded as a signal component of a human voice (ie cheer), a signal component not within the voice frequency range is regarded as a signal component of music (ie BGM), and a human voice on the F axis Inverse Fourier transform is performed twice for each of the signal component and the music signal component. As a result, in the section P 2A , a separated acoustic signal on the time axis based on the human voice is generated from the signal component of the human voice on the F axis, and separated on the time axis by the BGM from the signal component of the music on the F axis. An acoustic signal is generated. The same applies to the section P 2C .
各区間において時間軸上の各分離音響信号を生成した後、伸張部32は、区間P2Aにおける歓声の分離音響信号にピッチ維持伸張処理を施す一方で区間P2AにおけるBGMの分離音響信号にリピート処理を施し、処理後のそれらを足し合わせることで区間P2Aにおける伸張音響信号を生成する。但し、上述したように、伸張処理の過程において、区間P2AのBGMの分離音響信号を低減又は削除しても良い。区間P2B及びP2CにおけるBGMの分離音響信号についても同様である。
次いで、伸張部32は、区間P2Bにおけるゴール発声及び歓声の分離音響信号にピッチ維持伸張処理を施す一方で区間P2BにおけるBGMの分離音響信号にリピート処理を施し、処理後のそれらを足し合わせることで区間P2Bにおける伸張音響信号を生成する。但し、上述したように、伸張処理の過程において、区間P2Bにおける歓声の分離音響信号の音量を低減させても良い。
更に、伸張部32は、区間P2Cにおける歓声の分離音響信号にピッチ維持伸張処理を施す一方で区間P2CにおけるBGMの分離音響信号にリピート処理を施し、処理後のそれらを足し合わせることで区間P2Cにおける伸張音響信号を生成する。
最後に、伸張部32は、区間P2Aにおける伸張音響信号、区間P2Bにおける伸張音響信号及び区間P2Cにおける伸張音響信号を、この順番で接続することで全区間の伸張音響信号を完成させる。
After generating the respective separation acoustic signal on the time axis in each section, the
Then, the
Furthermore,
Finally, the
上述のようにして得られる伸張音響信号を再生することで、ゴール発声及び歓声のピッチが維持された状態で、注目すべきゴール発声が強調され、臨場感のある再生が実現される。また、BGMが違和感なく再生される。 By playing back the extended acoustic signal obtained as described above, the goal utterance to be noted is emphasized in a state where the pitch of the goal utterance and the cheer is maintained, and a realistic reproduction is realized. In addition, the BGM is reproduced without a sense of incongruity.
[第4の伸張具体例]
また、シーン設定情報に応じて、伸張部32で行う伸張処理の内容を変更するようにしても良い。例えば、シーン設定情報にて指し示される撮影シーンが「スポーツ」である場合には、周辺の歓声と思われる人の声の音響信号に対して伸張処理(例えばピッチ維持伸張処理)を行うことにより伸張音響信号に歓声の音響信号を含ませる一方、シーン設定情報にて指し示される撮影シーンが「マクロ」である場合には、人の声を含む周辺音の音響信号を伸張音響信号からなるだけ排除するようにしてもよい。
[Fourth specific example]
Further, the content of the expansion processing performed by the
また、シーン設定情報を参照することなく、対象映像信号から撮影シーン判定を行うようにしても良い。即ち例えば、対象映像信号に基づいて対象動画像のオプティカルフローを導出して該オプティカルフローから対象動画像上の物体の動きの大きさを検出し、その大きさが比較的大きい場合には、対象動画像がスポーツ風景を撮影したものであると判断するようにしても良い。このような判断が成された場合には、撮影シーンが「スポーツ」に設定された場合と同様の伸張処理を行うことができる。 Further, the shooting scene determination may be performed from the target video signal without referring to the scene setting information. That is, for example, the optical flow of the target moving image is derived based on the target video signal, and the magnitude of the motion of the object on the target moving image is detected from the optical flow. You may make it judge that a moving image is what image | photographed the sport scenery. When such a determination is made, the same expansion process as when the shooting scene is set to “sports” can be performed.
また例えば、映像信号解析部34が対象映像信号を解析することで対象動画像上に人と野球のバットが映っていることが判明した場合、対象動画像が野球のバッティングシーンを撮影したものであると判断することができる。このような判断が成された場合、打撃音の再生音量を増大させて再生時の迫力を向上させるべく、打撃音と推定されるインパルス音の音量を伸張処理の過程において増大させる、といったことも可能である。
Further, for example, when the video
<<第2実施形態>>
本発明の第2実施形態を説明する。上述の第1実施形態では、音響信号を収音して記録媒体15に記録するまでの過程において音響信号の伸張処理を行っているが、その伸張処理を再生段階において実行するようにしても良い。第2実施形態では、伸張処理を再生段階において実行する撮像装置を説明する。第2実施形態に係る撮像装置の全体的構成は、図1のそれと同じであるため、第2実施形態に係る撮像装置も撮像装置1と呼ぶ。第1実施形態にて述べられた事項は、矛盾なき限り、本実施形態にも適用される。
<< Second Embodiment >>
A second embodiment of the present invention will be described. In the first embodiment described above, the sound signal is expanded in the process from collecting the sound signal and recording it on the
第2実施形態では、対象動画像の映像信号を符号化して得た信号と共に、原音響信号である対象音響信号をそのまま符号化して得た信号が、一旦、記録媒体15に互いに関連付けられて記録される。その後、対象動画像の再生を指示する操作を受けて、記録媒体15から、対象動画像の映像信号を符号化して得た信号が映像信号ストリームとして読み出されると共に、対象音響信号をそのまま符号化して得た信号が音響信号ストリームとして読み出される。
In the second embodiment, a signal obtained by encoding the target audio signal, which is the original audio signal, as well as a signal obtained by encoding the video signal of the target moving image is temporarily associated with the
図25は、第2実施形態に係る、伸張音響信号の生成に関与する部位のブロック図である。音源種類解析部31、音響信号伸張部32及び映像信号解析部34は、図7のそれらと同じものである。上述したように、音源種類解析部31及び音響信号伸張部32はそれぞれ解析部31及び伸張部32と略記されうる。解析部31、伸張部32及び音響信号復号部35を、図1の音響信号処理部14に設けておくことができ、映像信号解析部34及び映像信号復号部36を、図1の映像信号処理部12に設けておくことができる。
FIG. 25 is a block diagram of a part related to generation of the extended acoustic signal according to the second embodiment. The sound source
記録媒体15から読み出された音響信号ストリーム及び映像信号ストリームは、夫々、音響信号復号部35及び映像信号復号部36にて復号されて対象音響信号及び対象映像信号が生成される。音響信号復号部35からの対象音響信号は解析部31及び伸張部32に送られ、映像信号復号部36からの対象映像信号は映像信号解析部34に送られる。解析部31及び映像信号解析部34は、第1実施形態と同様、対象音響信号及び対象映像信号に基づき音源種類情報及び映像解析情報を生成して、それらの情報を伸張部32に送る。
The audio signal stream and the video signal stream read from the
第1実施形態にて述べたシーン設定情報が記録媒体15に記録されている場合には、該シーン設定情報が記録媒体15から伸張部32に送られる。再生時においてユーザがシーン設定情報を入力した場合には、その再生時において入力したシーン設定情報を伸張部32に与えるようにしても良い。また、伸張部32には、再生速度情報も与えられる。再生速度情報は、対象動画像における撮影レートと再生レートの比を表す情報であり、第1実施形態にて述べたフレームレート情報と同じであっても良い。
When the scene setting information described in the first embodiment is recorded on the
今、第1実施形態と同様、対象動画像の撮影レートが600fpsであって且つ対象動画像の再生レートが60fpsであったとする。そうすると、伸張部32は、再生速度情報に従いつつ、対象音響信号、音源種類情報、映像解析情報及びシーン設定情報の全部又は一部に基づき、第1実施形態と同様にしてα秒間分の対象音響信号から(10×α)秒間分の音響信号を伸張音響信号として生成する。
Now, as in the first embodiment, it is assumed that the shooting rate of the target moving image is 600 fps and the playback rate of the target moving image is 60 fps. Then, the
映像信号復号部36の復号によって得られた対象映像信号を60fpsにて表示部16に送ることにより対象動画像が60fpsにて再生表示されると共に、対象映像信号の再生と同期した状態で伸張音響信号をスピーカ17に送ることで対象動画像の再生映像に同期した伸張音響信号が(10×α)秒をかけて音として再生される。尚、説明の便宜上、撮影レート及び再生レートが夫々600fps及び60fpsである場合を説明したが、勿論これは例示である。現実的には例えば、撮影レート及び再生レートは夫々60fps及び30fpsとされる。
By sending the target video signal obtained by the decoding of the video
また、再生時におけるユーザの指示に基づき、伸張処理の方法を変更するようにしても良い。例えば、ユーザは、対象音響信号に対して単純伸張処理を施すべきことを指示することができ、その指示の内容を伸張部32に与えられるシーン設定情報に含めておくことができる。そのような指示が伸張部32に与えられた場合、伸張部32は、音源種類情報及び映像解析情報に依存することなく、音響信号復号部35からの対象音響信号に単純伸張処理を施すことで伸張音響信号を生成する。
Further, the decompression method may be changed based on a user instruction during playback. For example, the user can instruct that the target audio signal should be subjected to simple extension processing, and the contents of the instruction can be included in the scene setting information given to the
<<変形等>>
上述した説明文中に示した具体的な数値は、単なる例示であって、当然の如く、それらを様々な数値に変更することができる。上述の実施形態の変形例または注釈事項として、以下に、注釈1〜注釈3を記す。各注釈に記載した内容は、矛盾なき限り、任意に組み合わせることが可能である。
<< Deformation, etc. >>
The specific numerical values shown in the above description are merely examples, and as a matter of course, they can be changed to various numerical values. As modifications or annotations of the above-described embodiment, notes 1 to 3 are described below. The contents described in each comment can be arbitrarily combined as long as there is no contradiction.
[注釈1]
図25の解析部31、伸張部32、映像信号解析部34、音響信号復号部35及び映像信号復号部36、並びに、図1の表示部16及びスピーカ17と同等の表示部及びスピーカを備えた再生装置(不図示)を、撮像装置1とは別に構成するようにしても良い。このような再生装置に、記録媒体15からの音響信号ストリーム及び映像信号ストリームを与えるようにすれば、第2実施形態に係る撮像装置1と同様の再生が当該再生装置上において実現される。
[Note 1]
25, the
尚、第1実施形態に係る撮像装置1は、映像信号及び音響信号の記録を行う記録装置としての機能を備え、第2実施形態に係る撮像装置1は、映像信号及び音響信号の再生を行う再生装置としての機能を備える。撮像装置は電子機器の一種であり、記録装置又は再生装置も電子機器の一種である。
Note that the
[注釈2]
図1の撮像装置1又は上記電子機器を、ハードウェア、或いは、ハードウェアとソフトウェアの組み合わせによって構成することができる。ソフトウェアを用いて撮像装置1又は上記電子機器を構成する場合、ソフトウェアにて実現される部位についてのブロック図は、その部位の機能ブロック図を表すことになる。ソフトウェアを用いて実現される機能をプログラムとして記述し、該プログラムをプログラム実行装置(例えばコンピュータ)上で実行することによって、その機能を実現するようにしてもよい
[Note 2]
The
[注釈3]
例えば、以下のように考えることができる。対象動画像の撮影時に収音された入力音響信号としての対象音響信号から出力音響信号としての伸張音響信号を生成する出力音響信号生成部は、解析部31及び伸張部32を含んで形成される(図7又は図25を参照)。出力音響信号生成部を含む音響信号処理装置は、音響信号処理部14に相当する、或いは、音響信号処理部14に内在する、或いは、音響信号処理部14を含む、と考えることができる。
[Note 3]
For example, it can be considered as follows. An output acoustic signal generation unit that generates a decompressed acoustic signal as an output acoustic signal from a target acoustic signal as an input acoustic signal collected at the time of capturing a target moving image is formed including an
1 撮像装置
11 撮像部
12 映像信号処理部
13 マイク部
14 音響信号処理部
31 音源種類解析部
32 音響信号伸張部
33 音響信号符号化部
34 映像信号解析部
DESCRIPTION OF
Claims (6)
前記出力音響信号は、前記対象動画像を前記第1フレームレートよりも小さな第2フレームレートで再生するときに前記対象動画像とともに音として再生されるべき音響信号であり、
前記出力音響信号生成部は、前記入力音響信号の音源の種類に応じて前記入力音響信号から前記出力音響信号を生成する
ことを特徴とする音響信号処理装置。 An output acoustic signal generation unit that generates an output acoustic signal having a signal length longer than the input acoustic signal from an input acoustic signal picked up when the target moving image is captured at the first frame rate; An acoustic signal processing device,
The output acoustic signal is an acoustic signal to be reproduced as a sound together with the target moving image when the target moving image is reproduced at a second frame rate smaller than the first frame rate.
The output acoustic signal generation unit generates the output acoustic signal from the input acoustic signal according to a type of a sound source of the input acoustic signal.
ことを特徴とする請求項1に記載の音響信号処理装置。 The output sound signal generation unit includes a sound source type analysis unit that analyzes a type of a sound source of the input sound signal based on the input sound signal, and the sound source of the input sound signal analyzed by the sound source type analysis unit The acoustic signal processing apparatus according to claim 1, wherein the output acoustic signal is generated from the input acoustic signal according to a type.
前記出力音響信号生成部は、前記入力音響信号の音源に人の声が含まれているか否かに応じて、前記入力音響信号から前記出力音響信号を生成する方法を変更する
ことを特徴とする請求項2に記載の音響信号処理装置。 The sound source type analysis unit determines whether or not a human voice is included in the sound source of the input sound signal based on the input sound signal,
The output acoustic signal generation unit changes a method of generating the output acoustic signal from the input acoustic signal according to whether or not a human voice is included in a sound source of the input acoustic signal. The acoustic signal processing apparatus according to claim 2.
ことを特徴とする請求項2または請求項3に記載の音響信号処理装置。 When the input sound signal includes sound signals from a plurality of different sound sources, the output sound signal generation unit uses the sound source type analysis unit to generate sound signals from the plurality of sound sources. Analyzing the type of the sound source of each separated acoustic signal while extracting it as the separated acoustic signal individually from the input acoustic signal, and then subjecting each separated acoustic signal to expansion processing according to the type of the sound source of each separated acoustic signal. The acoustic signal processing apparatus according to claim 2, wherein the output acoustic signal is generated by synthesizing the plurality of separated acoustic signals.
ことを特徴とする請求項2〜請求項4の何れかに記載の音響信号処理装置。 The output sound signal generation unit generates the output sound signal from the input sound signal based not only on the analysis result by the sound source type analysis unit but also on the analysis result on the video signal of the target moving image. The acoustic signal processing device according to any one of claims 2 to 4.
前記対象動画像を第1フレームレートにて撮影しているときにおいて、前記入力音響信号から前記出力音響信号を生成して前記出力音響信号を記録媒体に記録する、或いは、
前記入力音響信号を前記記録媒体に記録しておき、前記対象動画像を第2フレームレートにて再生するときにおいて、記録された前記入力音響信号から前記出力音響信号を生成して前記対象動画像とともに前記出力音響信号を再生する
ことを特徴とする電子機器。 An electronic apparatus comprising the acoustic signal processing device according to any one of claims 1 to 5,
When shooting the target moving image at a first frame rate, generating the output acoustic signal from the input acoustic signal and recording the output acoustic signal on a recording medium; or
When the input sound signal is recorded on the recording medium and the target moving image is reproduced at the second frame rate, the output sound signal is generated from the recorded input sound signal, and the target moving image is generated. And an electronic apparatus that reproduces the output acoustic signal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009204315A JP2011055386A (en) | 2009-09-04 | 2009-09-04 | Audio signal processor, and electronic apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009204315A JP2011055386A (en) | 2009-09-04 | 2009-09-04 | Audio signal processor, and electronic apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011055386A true JP2011055386A (en) | 2011-03-17 |
Family
ID=43943909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009204315A Pending JP2011055386A (en) | 2009-09-04 | 2009-09-04 | Audio signal processor, and electronic apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011055386A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013168710A (en) * | 2012-02-14 | 2013-08-29 | Nikon Corp | Imaging device |
US8971689B2 (en) | 2011-09-02 | 2015-03-03 | Nikon Corporation | Imaging device and image-audio playback device |
WO2016129303A1 (en) * | 2015-02-10 | 2016-08-18 | ソニー株式会社 | Image processing device, image capturing device, image processing method, and program |
WO2016139971A1 (en) * | 2015-03-03 | 2016-09-09 | ソニー株式会社 | Signal processing device, signal processing system, signal processing method and program |
US10734029B2 (en) | 2017-05-11 | 2020-08-04 | Canon Kabushiki Kaisha | Signal processing apparatus, signal processing method, and non-transitory computer-readable storage medium |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0973299A (en) * | 1995-06-30 | 1997-03-18 | Sanyo Electric Co Ltd | Mpeg audio reproducing device and mpeg reproducing device |
JPH09146587A (en) * | 1995-11-28 | 1997-06-06 | Sanyo Electric Co Ltd | Speech speed changer |
JPH09147472A (en) * | 1995-11-27 | 1997-06-06 | Sanyo Electric Co Ltd | Video and audio reproducing device |
JP2008283276A (en) * | 2007-05-08 | 2008-11-20 | Matsushita Electric Ind Co Ltd | Imaging apparatus |
JP2009098510A (en) * | 2007-10-18 | 2009-05-07 | Sanyo Electric Co Ltd | Sound recording device |
-
2009
- 2009-09-04 JP JP2009204315A patent/JP2011055386A/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0973299A (en) * | 1995-06-30 | 1997-03-18 | Sanyo Electric Co Ltd | Mpeg audio reproducing device and mpeg reproducing device |
JPH09147472A (en) * | 1995-11-27 | 1997-06-06 | Sanyo Electric Co Ltd | Video and audio reproducing device |
JPH09146587A (en) * | 1995-11-28 | 1997-06-06 | Sanyo Electric Co Ltd | Speech speed changer |
JP2008283276A (en) * | 2007-05-08 | 2008-11-20 | Matsushita Electric Ind Co Ltd | Imaging apparatus |
JP2009098510A (en) * | 2007-10-18 | 2009-05-07 | Sanyo Electric Co Ltd | Sound recording device |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8971689B2 (en) | 2011-09-02 | 2015-03-03 | Nikon Corporation | Imaging device and image-audio playback device |
JP2013168710A (en) * | 2012-02-14 | 2013-08-29 | Nikon Corp | Imaging device |
WO2016129303A1 (en) * | 2015-02-10 | 2016-08-18 | ソニー株式会社 | Image processing device, image capturing device, image processing method, and program |
US10224055B2 (en) | 2015-02-10 | 2019-03-05 | Sony Semiconductor Solutions Corporation | Image processing apparatus, image pickup device, image processing method, and program |
WO2016139971A1 (en) * | 2015-03-03 | 2016-09-09 | ソニー株式会社 | Signal processing device, signal processing system, signal processing method and program |
US10262690B2 (en) | 2015-03-03 | 2019-04-16 | Sony Semiconductor Solutions Corporation | Signal processing device, signal processing system, signal processing method, and program |
US10734029B2 (en) | 2017-05-11 | 2020-08-04 | Canon Kabushiki Kaisha | Signal processing apparatus, signal processing method, and non-transitory computer-readable storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112400325B (en) | Data driven audio enhancement | |
JP6464449B2 (en) | Sound source separation apparatus and sound source separation method | |
JP5801026B2 (en) | Image sound processing apparatus and imaging apparatus | |
JP6882057B2 (en) | Signal processing equipment, signal processing methods, and programs | |
JP4934580B2 (en) | Video / audio recording apparatus and video / audio reproduction apparatus | |
JP2010187363A (en) | Acoustic signal processing apparatus and reproducing device | |
WO2019000721A1 (en) | Video file recording method, audio file recording method, and mobile terminal | |
JP5245919B2 (en) | Information processing apparatus and program | |
JP2009156888A (en) | Speech corrector and imaging apparatus equipped with the same, and sound correcting method | |
JP2008287041A (en) | Imaging device, audio processing circuit, noise reduction circuit, noise reduction method and program | |
JP2008263498A (en) | Wind noise reducing device, sound signal recorder and imaging apparatus | |
JP2011055386A (en) | Audio signal processor, and electronic apparatus | |
JP2008141484A (en) | Image reproducing system and video signal supply apparatus | |
WO2013024704A1 (en) | Image-processing device, method, and program | |
US20100310229A1 (en) | Video processing apparatus and vide processing method | |
JP4774820B2 (en) | Digital watermark embedding method | |
WO2016125362A1 (en) | Information processing device, information processing system, information processing method, and program | |
JP6818445B2 (en) | Sound data processing device and sound data processing method | |
JP2011139306A (en) | Imaging device, and reproduction device | |
JP3642019B2 (en) | AV content automatic summarization system and AV content automatic summarization method | |
JP5063489B2 (en) | Judgment device, electronic apparatus including the same, and judgment method | |
WO2013008869A1 (en) | Electronic device and data generation method | |
JP5325059B2 (en) | Video / audio synchronized playback device, video / audio synchronized processing device, video / audio synchronized playback program | |
JP2013090047A (en) | Audio signal processing apparatus, sound signal processing method, and program | |
JP2009005157A (en) | Sound signal correction device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120712 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20130404 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20130606 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130909 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131008 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140225 |