JP2007158396A - Video/audio synchronization transmission apparatus - Google Patents
Video/audio synchronization transmission apparatus Download PDFInfo
- Publication number
- JP2007158396A JP2007158396A JP2005346474A JP2005346474A JP2007158396A JP 2007158396 A JP2007158396 A JP 2007158396A JP 2005346474 A JP2005346474 A JP 2005346474A JP 2005346474 A JP2005346474 A JP 2005346474A JP 2007158396 A JP2007158396 A JP 2007158396A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- video
- audio
- identification
- subject image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
この発明は、別々に生成された映像信号と音声信号を伝送する際に被写体像とその音声を同期させて伝送する映像・音声同期伝送装置に関するものである。 The present invention relates to a video / audio synchronous transmission apparatus for transmitting a subject image and its sound in synchronization when transmitting separately generated video signals and audio signals.
近年、劇場や映画館等において、大画面のスクリーンに映像信号に基づいた映像を投射して表示を行うようになって来ている。また、家庭用のAVシステムにおいても、フラットディスプレイ等で大画面化が進んで来ている。一方、このような大画面の映像に付随させる音声に関しては、臨場感を出すために、ステレオや5.1チャンネルサラウンド等の多チャンネルのスピーカを使用する方式が適用されて来た。例えば2チャンネルステレオ方式においては、テレビ番組で伝送される音声信号や記録媒体上に記録されている音声信号は2チャンネルそれぞれ別々に伝送または記録されており、各チャンネルを左右のスピーカで出力させることにより、平面的ではあるが左右の音の広がりを感じさせることを可能にしている。但し、画面に対する視聴者の位置に偏りがある場合には、左右いずれかのスピーカの音が支配的になってしまい、音の広がりをあまり感じられないということが起きる。これを改善するために、5.1チャンネルサラウンド方式では、正面、右前方、左前方、右後方、左後方にそれぞれ置くスピーカと通常正面に配置する低音出力用サブウーファースピーカの6スピーカによって、立体的で臨場感のある音声環境を実現している。 In recent years, in theaters, movie theaters, and the like, an image based on an image signal is projected and displayed on a large screen. Also, in home AV systems, the increase in screen size is progressing with flat displays and the like. On the other hand, with respect to the sound accompanying such a large screen image, a method using a multi-channel speaker such as stereo or 5.1 channel surround has been applied in order to give a sense of reality. For example, in the 2-channel stereo system, audio signals transmitted in a television program and audio signals recorded on a recording medium are transmitted or recorded separately for each of the two channels, and each channel is output by left and right speakers. This makes it possible to feel the spread of sound on the left and right, albeit planarly. However, if there is a bias in the position of the viewer with respect to the screen, the sound of either the left or right speaker becomes dominant, and it may occur that the spread of the sound is not felt so much. In order to improve this, the 5.1 channel surround system uses three speakers: a speaker placed at the front, right front, left front, right rear, and left rear and a subwoofer speaker for low-frequency output that is usually placed at the front. Realizes a realistic and realistic sound environment.
しかし、これらの方式は横方向の音の広がりを追求したもので、上下方向の音の広がりについてはあまり考慮されておらず、画面が非常に大きい映像表示システムに用いた場合には、画面上の音源(画面の中で音の出ている位置、音を発している被写体像の位置等)と実際の音源(スピーカ)とが分かれてしまい、映像に対して音声が不自然な位置再生となり、臨場感が損なわれるという問題があった。このような問題に対して、映像表示用のスクリーンの背面にマトリクス状に複数のスピーカを配置し、画面上の音源の位置と当該スピーカの位置とを一致させる制御手段を設けることによって、臨場感のある映像表示用スクリーンを提供する方法が提案されている(例えば、特許文献1参照)。但し、特許文献1では、記録媒体上に記録されている音声信号の再生にあたって、画面上の音源の位置を特定するための音声信号をどのように制御するかについては、詳細には開示していない。
However, these methods pursue the spread of sound in the horizontal direction, and do not take much consideration into the spread of sound in the vertical direction, and when used in a video display system with a very large screen, Sound source (position of sound in the screen, position of subject image producing sound, etc.) and actual sound source (speaker) are separated, resulting in unnatural sound reproduction for the video There was a problem that the sense of reality was impaired. To deal with such problems, a plurality of speakers are arranged in a matrix on the back of the screen for video display, and a control means for matching the position of the sound source on the screen with the position of the speakers is provided. There has been proposed a method of providing a certain video display screen (see, for example, Patent Document 1). However,
一方、HDD、DVD等の記録媒体に蓄積するテレビ番組等の映像および音声信号を符号化する場合において、画面の中で特に注目される映像シーンや被写体に多くの情報量を割り当てることによって、決められた符号化レートを効率的に使い、視覚的な画質向上を図るようにする方法がある。この方法において、例えば着目点の一つとして人物検出を行う方法があるが、人物が複数いる場合には、それらに対する情報量の割り当てが分散してしまい、視覚的な画質向上があまり期待できなくなる。そのような場合に、特に音声を発している被写体を判別することが出来れば、画面内で情報量の割り当てを行う際に有用な情報になると考えられる。 On the other hand, when video and audio signals such as TV programs stored in recording media such as HDDs and DVDs are encoded, a large amount of information is allocated to video scenes and subjects of particular interest on the screen. There is a method for efficiently using the encoded rate and improving the visual image quality. In this method, for example, there is a method of detecting a person as one of the points of interest. However, when there are a plurality of persons, the allocation of information amount to them is dispersed, so that it is difficult to expect improvement in visual image quality. . In such a case, if it is possible to discriminate the subject that is producing the sound, it is considered that the information is useful when the information amount is allocated on the screen.
特許文献1に開示されているような大画面の映像表示システムにおける映像と音声の再生方法は、以上のように行われているが、次のような問題がある。テレビ番組等の映像、音声の同期方法に関して、一般的には映像信号はカメラ、音声信号はマイクを通じて別信号として取り出され、別信号のまま伝送路に多重化されている。この場合、大画面における音響システムで再生する場合や、画面内で効率的な情報量の割り当てを行う符号化制御において、画面上の被写体像と音声の因果関係が明確にならない状態が生じ、視聴する者が画面上での音源を特定できないという問題がある。
The video and audio playback method in the large-screen video display system disclosed in
この発明は、上記問題点を解決するためになされたもので、視聴する者が画面上での音源を特定できるようにするために、画面上の被写体像と対応する音声の因果関係を明確にし、音声信号と映像信号の被写体像を同期させて伝送することを可能にする映像・音声同期伝送装置を得ることを目的とする。 The present invention has been made to solve the above problems, and in order to enable a viewer to specify a sound source on the screen, the causal relationship between the subject image on the screen and the corresponding sound is clarified. Another object of the present invention is to provide a video / audio synchronous transmission apparatus that enables transmission of a subject image of an audio signal and a video signal in synchronization.
この発明に係る映像・音声同期伝送装置は、映像コンテンツ制作時に別々に作製された映像信号と、当該映像信号の画面上に登場する音声を発する被写体像のそれぞれと関連付けた識別子が付加されたそれぞれの音声信号とを同期させて利用装置に伝送する映像・音声同期伝送装置であって、入力された映像信号から、音声を発する被写体像を識別するための識別子を表す識別信号を生成すると共に、画面上の当該被写体像の位置を表す位置情報を生成する識別・位置生成手段と、生成された識別信号と位置情報を映像信号に付加する識別情報付加手段と、映像信号に付加されている識別信号に基づいて、入力された音声信号の中から被写体像の識別子に対応する識別子を持つ音声信号を検出し、映像信号に付加されている位置情報に基づいて、検出された音声信号を映像信号の被写体像の位置に多重化してAV多重信号として出力する同期信号合成手段とを備えたものである。 The video / audio synchronous transmission device according to the present invention includes a video signal created separately at the time of video content production, and an identifier associated with each of the subject images that emit audio appearing on the screen of the video signal. And an audio / synchronous transmission device that synchronizes and transmits the audio signal to the utilization device, and generates an identification signal representing an identifier for identifying a subject image that emits audio from the input video signal, Identification / position generation means for generating position information representing the position of the subject image on the screen, identification information addition means for adding the generated identification signal and position information to the video signal, and identification added to the video signal Based on the position information added to the video signal, an audio signal having an identifier corresponding to the identifier of the subject image is detected from the input audio signal based on the signal. , In which a synchronization signal synthesizing means for outputting as a multiplexed AV signal by multiplexing the detected speech signal to the position of the object image of the video signal.
この発明によれば、大画面の映像表示システムで映像を表示する際に、AV合成信号から分離した音声信号を音響システムに与え、画面上での音源の位置情報を用いて、あたかも再生画面上の被写体像からその被写体像に対応する音声を発生させることに利用することができる効果がある。 According to the present invention, when a video is displayed on a large-screen video display system, an audio signal separated from the AV synthesized signal is given to the acoustic system, and the position information of the sound source on the screen is used as if on the playback screen. This can be used to generate sound corresponding to the subject image from the subject image.
実施の形態1.
図1はこの発明の実施の形態1による映像・音声同期伝送装置の機能構成を示すブロック図である。
まず、ここでは、テレビ番組等の収録時に音声を発する被写体(人物、動物等の音声を発するもの全て)とその被写体が発する音声との関連付けを行っておく。図2に示すように、例えば音声を発する被写体として3人の人物が存在する場合、その実際の被写体に、画像処理上で識別可能となるマークa1,a2,a3を予め付けておく。このマークには、例えばバーコードや発光体等が用いられる。したがって、カメラから得られる映像信号101にはこのマークが付いた被写体像が含まれることになる。なお、カメラで駒取りして動画アニメーションを製作する場合の音声を発する部分に識別可能なマーク付けをすれば、上記被写体と同様に扱うことができる。
一方、図1に示すように、アフレコ時に、人物(被写体)対応別に設けたマイクから入力される音声信号(符号化されたデジタルデータ)104〜106には、各人物と各人物が発する音声信号とを一致させるための対応付けがされる。すなわち、マークa1が付けられた被写体の音声信号104には識別子b1を、マークa2が付けられた被写体の音声信号105には識別子b2を、マークa3が付けられた被写体の音声信号106には識別子b3を、それぞれ対応付けて付加しておく。
FIG. 1 is a block diagram showing a functional configuration of a video / audio synchronous transmission apparatus according to
First, here, a subject that emits sound when recording a TV program or the like (all those that emit sound of people, animals, etc.) and a sound emitted by the subject are associated with each other. As shown in FIG. 2, for example, when there are three persons as subjects that emit sound, marks a 1, a 2, and a 3 that can be identified in image processing are attached to the actual subjects in advance. For example, a bar code or a light emitter is used for this mark. Accordingly, the
On the other hand, as shown in FIG. 1, during the post-recording, audio signals (encoded digital data) 104 to 106 input from microphones provided for each person (subject) are included in the audio signals emitted by each person and each person. Is made to match. That is, the identifier b1 is assigned to the
図1において、被写体認識部(識別・位置生成手段)1は、入力された映像信号(アナログ信号)101について、上記のように予め実際の被写体に付けられたマークを対応する被写体像から認識して、当該マークに対応する被写体像を識別するための識別子からなる識別信号102を生成すると共に、そのマークが画面上のどの位置にあるかを表す位置情報103を生成する手段である。AD変換・符号化部(識別情報付加手段)10は、映像信号(アナログ信号)101をデジタル変換した後、所定の方法で符号化し、かつ識別信号10と位置情報103を付加して映像信号(デジタルデータ)111として出力する手段である。同期信号合成部2は、被写体認識部1から入力される識別信号102と位置情報103に基づいて、入力された音声信号104〜106の中から被写体像の識別子に対応する識別子を持つ音声信号を検出し、映像信号に付加されている位置情報に基づいて、検出された音声信号を映像信号111の被写体像の位置に多重化してAV多重信号として出力する手段である。
In FIG. 1, a subject recognition unit (identification / position generation means) 1 recognizes a mark previously attached to an actual subject as described above from a corresponding subject image for an input video signal (analog signal) 101. Thus, the
次に動作について説明する。
まず、被写体認識部1では、カメラから入力される映像信号(アナログ信号)101から、図2に示すような実際の被写体に付けられているマークを識別し、そのマークに対応した被写体像であることを表す識別子からなる識別信号102を生成する。この場合の被写体像の識別子はマイクから入力される音声信号の識別子と対応付けられて生成されるものとする。また、このとき被写体認識部1は、画面上のマークが付いている位置(またはマークが付いている被写体像の位置)を画素単位で表した位置情報(アドレス)103を生成する。また、カメラから入力される映像信号(アナログ信号)101は、AD変換・符号化部10において、デジタル変換された後、所定の方法で符号化され、かつ識別信号10と位置情報103が付加されて映像信号(デジタル信号)111として出力される。
Next, the operation will be described.
First, the
同期信号合成部2には、映像信号111とマイクから入力されたアフレコ時の音声信号104〜106がそれぞれ別々に入力されている。同期信号合成部2では、まず映像信号111に付加されている識別信号102に基づいて、音声信号104〜106の中から被写体像の識別子に対応する識別子を持つ音声信号を検出し、映像の画素単位または複数画素単位に対応付けて抽出する。次に、同期信号合成部2では、識別信号102に対応する位置情報103が示すマークが付いている映像信号111の位置に、画素単位または複数画素単位に対応付けられた音声信号を多重化し、その信号をAV多重信号107として出力する。
The
以上の映像信号と音声信号を多重化する方法を、画面上におけるイメージで表すと図3のようになる。すなわち、音声信号の音源となる画面上の被写体像の位置に、その被写体像と因果関係を持つ音声信号を画素単位または複数画素単位で割り当てて、映像信号に音声信号を多重化することになる。この場合、音声信号は固定レートではなくなる。 The method of multiplexing the video signal and the audio signal as described above is represented as an image on the screen as shown in FIG. That is, an audio signal having a causal relationship with the subject image is assigned to the position of the subject image on the screen as a sound source of the audio signal in units of pixels or a plurality of pixels, and the audio signal is multiplexed with the video signal. . In this case, the audio signal is not at a fixed rate.
以上のように、この実施の形態1によれば、テレビ番組等の映像信号と音声信号について別々に伝送するのではなく、音源となる画面上の被写体像の位置に、その被写体像に対応する音声信号を画素または複数画素単位で割り当てることにより因果関係のある映像信号と音声信号とを完全同期をとって多重化しAV合成信号として伝送するようにしている。したがって、大画面の映像表示システムで映像を表示する際に、AV合成信号から分離した音声信号を音響システムに与え、画面上での音源の位置情報(アドレス)を用いて、あたかも再生画面上の被写体像からその被写体像に対応する音声を発生させることに利用することができる。また、符号化する際には画面内での効率的な情報量の割り当てを実現することが可能となる。さらに、カメラで被写体を撮影する際に、被写体自身に画像処理上で識別できるマークを付け、それを認識することによって、音声信号の音源となる被写体の画面上の位置を確定することができるため、自動的にAV合成信号を作成することが可能となる。 As described above, according to the first embodiment, the video signal and the audio signal of a television program or the like are not transmitted separately, but the subject image is corresponding to the position of the subject image on the screen serving as a sound source. By assigning audio signals in units of pixels or a plurality of pixels, causal video signals and audio signals are multiplexed in perfect synchronization and transmitted as AV composite signals. Therefore, when a video is displayed on a large-screen video display system, an audio signal separated from the AV composite signal is given to the acoustic system, and the position information (address) of the sound source on the screen is used, as if on the playback screen. This can be used to generate sound corresponding to the subject image from the subject image. Further, when encoding, it is possible to realize efficient allocation of information amount within the screen. Furthermore, when a subject is photographed with a camera, a mark that can be identified for image processing is attached to the subject and the position on the screen of the subject that is the sound source of the audio signal can be determined by recognizing the mark. It is possible to automatically create an AV composite signal.
実施の形態2.
図4はこの発明の実施の形態2による映像・音声同期伝送装置の機能構成を示すブロック図である。図において、図1に相当する部分には同一符号を付し、原則としてその説明は省略する。この実施の形態2の構成は、実施の形態1の同期信号合成部2の代わりに、音声信号多重部3を備えている。
音声信号多重部3は、被写体認識部(識別・位置生成手段)1から入力される被写体像の識別子からなる識別信号102とその被写体像の位置情報103に基づいて、カメラから入力された映像信号101に含まれる各被写体像と各被写体に対応させたアフレコ時のマイクから入力された音声信号104〜106とを関連付けて、音声信号に因果関係のある被写体像の識別子を多重化して音声多重信号108を生成し出力する手段である。なお、この実施の形態2の場合、AD変換・符号化部10で映像信号111に付加されるのは識別信号だけでもよい。
Embodiment 2. FIG.
FIG. 4 is a block diagram showing a functional configuration of a video / audio synchronous transmission apparatus according to Embodiment 2 of the present invention. In the figure, portions corresponding to those in FIG. 1 are denoted by the same reference numerals, and description thereof will be omitted in principle. The configuration of the second embodiment includes an audio
The audio
次に、動作について説明する。
音声信号多重部3では、各被写体に対応させたアフレコ時のマイクからの音声信号104〜106が入力されると、まず被写体認識部1で生成された識別信号102に基づいて、音声信号104〜106の中から被写体像の識別子に対応する識別子を持つ音声信号を検出する。次に、検出した音声信号に、被写体像の識別子と被写体識別部1から得られるその被写体像の位置情報(アドレス)103を多重化して音声多重信号108として出力する。すなわち、各音声信号に対してその音源となる被写体像が画面上のどの位置にいるかの位置情報を多重するのである。このようにして生成された、各被写体像の位置情報(アドレス)を多重化した音声多重信号108は映像信号111とは別信号にして利用装置へ伝送される。
Next, the operation will be described.
In the audio
以上のように、この実施の形態2によれば、テレビ番組等の映像信号と音声信号を従来のように別信号として伝送するようにしているが、音声信号に画面上での音源の位置情報を多重化して送るようにしたので、大画面の映像表示システムで映像を表示する際に、音声信号を音響システムに与え、音声多重信号から検出した音源の位置情報を用いて、あたかも再生画面上の被写体像からその被写体像に対応する音声を発生させることに利用することができる。また、実施の形態1と同様に、符号化する際には画面内での効率的な情報量の割り当てを実現することが可能となる。 As described above, according to the second embodiment, the video signal and the audio signal of a television program or the like are transmitted as separate signals as in the prior art, but the position information of the sound source on the screen is included in the audio signal. When displaying video on a large-screen video display system, the audio signal is given to the acoustic system, and the sound source position information detected from the audio multiplexed signal is used as if it were on the playback screen. Can be used to generate sound corresponding to the subject image from the subject image. Further, as in the first embodiment, it is possible to realize efficient information amount allocation in the screen when encoding.
実施の形態3.
上記実施の形態2では、音声信号に対してその音源である被写体の画面上の被写体像の位置情報(アドレス)を多重して音声多重信号を生成しているが、音声多重信号を生成する場合に、電子透かし技術を用いて音声信号に位置情報(アドレス)を埋め込むようにしてもよい。この場合、図4における音声信号多重部3に、電子透かし技術によって画面上の被写体像の位置情報(アドレス)を埋め込む機能を持たせることになる。これによっても、実施の形態2と同様の効果を得ることができる。
In the second embodiment, the position information (address) of the subject image on the screen of the subject that is the sound source is multiplexed with the sound signal to generate the sound multiplexed signal. However, when the sound multiplexed signal is generated. In addition, position information (address) may be embedded in the audio signal using a digital watermark technique. In this case, the audio
実施の形態4.
図5はこの発明の実施の形態4による映像・音声同期伝送装置の機能構成を示すブロック図である。図において、図1に相当する部分には同一符号を付し、原則としてその説明は省略する。この実施の形態4の構成は、実施の形態1の同期信号合成部2の代わりに、映像信号多重部4を備えている。
映像信号多重部4は、被写体認識部1から入力される識別信号102と位置情報103に基づいて、入力された音声信号104〜106の中から被写体像の識別子に対応する識別子を持つ音声信号を検出し、検出された音声信号に付加された識別子を前記識別情報付加手段からの映像信号111に電子透かしデータとして埋め込んで映像多重信号として出力する手段である。
FIG. 5 is a block diagram showing a functional configuration of a video / audio synchronous transmission apparatus according to
Based on the
次に、動作について説明する。
映像信号多重部4では、映像信号111が入力されると、その中に含まれる識別信号102に基づいて、入力される音声信号の中から被写体像の識別子に対応する識別子を持つマイクから入力された音声信号を検出する。次に、この検出された音声信号に付加された識別子を抽出して映像信号111に電子透かしデータとして埋め込んで映像多重信号109として出力する。映像信号多重部4で生成された映像多重信号109と各マイクの音声信号104〜106とは別々の信号として利用装置に対して伝送される。
Next, the operation will be described.
When the
以上のように、この実施の形態4によれば、テレビ番組等の映像信号と音声信号を従来のように別信号として伝送するようにしているが、画面上での音源の位置情報が付加された映像信号に、その音源に対応する音声信号の識別子を多重化して送るようにしたので、大画面の映像表示システムで映像を表示する際に、映像多重信号から検出した音源となる被写体像の位置情報を用いて、対応する音声信号を検出して音響システムに与え、あたかも再生画面上の被写体像からその被写体像に対応する音声を発生させることに利用することができる。また、符号化する際には画面内での効率的な情報量の割り当てを実現することが可能となる。 As described above, according to the fourth embodiment, the video signal and the audio signal of a television program or the like are transmitted as separate signals as in the prior art, but the position information of the sound source on the screen is added. Since the identifier of the audio signal corresponding to the sound source is multiplexed and sent to the recorded video signal, when displaying the video on the large-screen video display system, the subject image as the sound source detected from the video multiplexed signal is displayed. Using the position information, a corresponding audio signal can be detected and applied to the acoustic system, and can be used for generating sound corresponding to the subject image from the subject image on the playback screen. Further, when encoding, it is possible to realize efficient allocation of information amount within the screen.
実施の形態5.
図6はこの発明の実施の形態5による映像・音声同期伝送装置の機能構成を示すブロック図である。図において、図1に相当する部分には同一符号を付し、原則としてその説明は省略する。この実施の形態5の構成は、実施の形態1の被写体認識部1の代わりに、被写体識別データ生成部(識別・位置生成手段)5を備えている。
この実施の形態5の場合、音声を発する被写体(人物、動物等の音声を発するもの全て)とその被写体が発する音声との関連付けの方法が上記各実施の形態の場合と異なる。ここでは、カメラまたは映像記憶装置から入力される映像信号(アナログ)111の映像は、音声を発する被写体に対して、画像処理上で識別可能となるマークa1,a2,a3が付けられていない通常の映像である。
被写体識別データ生成部5は、入力される映像信号101をモニタで再生し、その画面上にある音源となる被写体像に入力ペンを接触させることにより、当該被写体像を識別するための識別子からなる識別信号を生成すると共に、画面上の当該被写体像の位置を表す位置情報103を生成する手段である。
Embodiment 5. FIG.
FIG. 6 is a block diagram showing a functional configuration of a video / audio synchronous transmission apparatus according to Embodiment 5 of the present invention. In the figure, portions corresponding to those in FIG. 1 are denoted by the same reference numerals, and description thereof will be omitted in principle. The configuration of the fifth embodiment includes a subject identification data generation unit (identification / position generation unit) 5 instead of the
In the case of the fifth embodiment, the method of associating the subject that emits sound (all those that emit sound such as people and animals) and the sound emitted by the subject is different from the case of each of the above embodiments. Here, the video of the video signal (analog) 111 input from the camera or the video storage device is usually not provided with marks a1, a2, and a3 that can be identified in image processing for a subject that emits sound. It is an image of.
The subject identification data generation unit 5 includes an identifier for identifying the subject image by reproducing the
次に、動作について説明する。
カメラまたは映像記憶装置から映像信号111入力されると、被写体識別データ生成部5では、映像信号111をモニタで再生する。番組制作者がその画面上にある音源となる被写体像に入力ペンを接触させる。複数の被写体像がある場合には、被写体像毎に入力ペンの被写体像を特定するモードを切り替えたり、あるいは複数の人で異なるモードの入力ペンを用いて行う。このことにより、被写体識別データ生成部5では、その被写体像を表す識別子を発生させて識別信号102を生成する。また、この時、その被写体像が画面上のどの位置にあるかを表す位置情報103を生成して、識別信号102と共にAD変換・符号化部10に入力する。その後の処理は実施の形態1と同様である。
Next, the operation will be described.
When the
以上のように、この実施の形態5によれば、通常の映像信号を用いて、その画面上に存在する音源となる被写体像の識別信号と位置情報を生成するようにしたので、被写体自身にマーク付けしていない映像や外国から入手した映像コンテンツの音声吹き替えにも対応可能となる。また、上記各実施の形態で行っているように、被写体自身にマークを付ける方法を用いた場合には、被写体の遠近や向きに因りマークを認識できない場合が起こり得るが、この実施の形態5の場合は、被写体像の画面上に現れている部分に対して指定処理を行うため、手作業を伴うが、対象とする被写体を確実に特定する識別子を付与することが可能である。
なお、被写体識別データ生成部5を実施の形態2から実施の形態4のいずれか1つに適用しても、それぞれ同様な効果が得られる。
As described above, according to the fifth embodiment, the normal image signal is used to generate the identification signal and the position information of the subject image serving as the sound source existing on the screen. It is also possible to support voice-dubbing of unmarked video and video content obtained from foreign countries. In addition, as in the above embodiments, when the method of marking a subject itself is used, the mark may not be recognized depending on the perspective and direction of the subject. In this case, since the designation process is performed on the portion of the subject image that appears on the screen, it is accompanied by manual work, but it is possible to assign an identifier that reliably identifies the subject subject.
Note that the same effect can be obtained by applying the subject identification data generation unit 5 to any one of the second to fourth embodiments.
1 被写体認識部、2 同期信号合成部、3 音声信号多重部、4 映像信号多重部、5 被写体識別データ生成部、10 AD変換・符号化部。 1 subject recognition unit, 2 synchronization signal synthesis unit, 3 audio signal multiplexing unit, 4 video signal multiplexing unit, 5 subject identification data generation unit, 10 AD conversion / encoding unit
Claims (7)
入力された映像信号から、音声を発する被写体像を識別するための識別子を表す識別信号を生成すると共に、画面上の当該被写体像の位置を表す位置情報を生成する識別・位置生成手段と、
生成された識別信号と位置情報を映像信号に付加する識別情報付加手段と、
映像信号に付加されている識別信号に基づいて、入力された音声信号の中から被写体像の識別子に対応する識別子を持つ音声信号を検出し、映像信号に付加されている位置情報に基づいて、検出された音声信号を映像信号の被写体像の位置に多重化してAV多重信号として出力する同期信号合成手段とを備えたことを特徴とする映像・音声同期伝送装置。 Video signals created separately during video content production and the audio signals with identifiers associated with each of the subject images that emit audio appearing on the screen of the video signal are synchronized and transmitted to the user device A video / audio synchronous transmission device,
An identification / position generating means for generating an identification signal representing an identifier for identifying a subject image that emits sound from an input video signal, and for generating position information representing the position of the subject image on the screen;
Identification information adding means for adding the generated identification signal and position information to the video signal;
Based on the identification signal added to the video signal, an audio signal having an identifier corresponding to the identifier of the subject image is detected from the input audio signal, and based on the position information added to the video signal, A video / audio synchronous transmission apparatus comprising: synchronization signal synthesis means for multiplexing the detected audio signal at the position of the subject image of the video signal and outputting it as an AV multiplexed signal.
入力された映像信号から、音声を発する被写体像を識別するための識別子を表す識別信号と当該被写体像の画面上の位置を表す位置情報とを生成する識別・位置生成手段と、
生成された識別信号を映像信号に付加する識別情報付加手段と、
前記識別・位置生成手段で生成された識別信号に基づいて、入力される音声信号の中から被写体像の識別子に対応する識別子を持つ音声信号を検出し、検出された音声信号に、前記識別・位置生成手段で生成された、当該被写体像の位置情報を多重化して音声多重信号として出力する音声信号多重手段とを備え、
前記識別情報付加手段からの映像信号と前記音声信号多重手段からの音声多重信号を別々にして伝送することを特徴とする映像・音声同期伝送装置。 Video signals created separately during video content production and the audio signals with identifiers associated with each of the subject images that emit audio appearing on the screen of the video signal are synchronized and transmitted to the user device A video / audio synchronous transmission device,
Identification / position generating means for generating an identification signal representing an identifier for identifying a subject image that emits sound and position information representing a position of the subject image on the screen from the input video signal;
Identification information adding means for adding the generated identification signal to the video signal;
Based on the identification signal generated by the identification / position generation means, an audio signal having an identifier corresponding to the identifier of the subject image is detected from the input audio signal, and the identification / Audio signal multiplexing means for multiplexing the position information of the subject image generated by the position generation means and outputting as an audio multiplexed signal;
A video / audio synchronous transmission apparatus for separately transmitting a video signal from the identification information adding means and an audio multiplexed signal from the audio signal multiplexing means.
入力された映像信号から、音声を発する被写体像を識別するための識別子を表す識別信号と当該被写体像の画面上の位置を表す位置情報とを生成する識別・位置生成手段と、
生成された識別信号と位置情報を映像信号に付加する識別情報付加手段と、
前記識別情報付加手段からの映像信号に付加された識別信号に基づいて、入力される音声信号の中から被写体像の識別子に対応する識別子を持つ音声信号を検出し、検出された音声信号に付加された識別子を前記識別情報付加手段からの映像信号に電子透かしデータとして埋め込んで映像多重信号として出力する映像信号多重手段とを備え、
前記映像信号多重手段からの映像信号と前記入力された音声信号を別々にして伝送することを特徴とする映像・音声同期伝送装置。 Video signals created separately during video content production and the audio signals with identifiers associated with each of the subject images that emit audio appearing on the screen of the video signal are synchronized and transmitted to the user device A video / audio synchronous transmission device,
Identification / position generating means for generating an identification signal representing an identifier for identifying a subject image that emits sound and position information representing a position of the subject image on the screen from the input video signal;
Identification information adding means for adding the generated identification signal and position information to the video signal;
Based on the identification signal added to the video signal from the identification information adding means, an audio signal having an identifier corresponding to the identifier of the subject image is detected from the input audio signal and added to the detected audio signal. Video signal multiplexing means for embedding the identifier thus obtained as digital watermark data in the video signal from the identification information adding means and outputting as a video multiplexed signal;
A video / audio synchronous transmission apparatus for separately transmitting a video signal from the video signal multiplexing means and the inputted audio signal.
The identification / position generation means reproduces an input video signal on a monitor, and an identification signal comprising an identifier for identifying the subject image by bringing the input pen into contact with the subject image serving as a sound source on the screen 6. The video image data according to claim 1, wherein the object identification data generating unit generates position information representing the position of the subject image on the screen. Voice synchronous transmission device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005346474A JP2007158396A (en) | 2005-11-30 | 2005-11-30 | Video/audio synchronization transmission apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005346474A JP2007158396A (en) | 2005-11-30 | 2005-11-30 | Video/audio synchronization transmission apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007158396A true JP2007158396A (en) | 2007-06-21 |
Family
ID=38242229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005346474A Pending JP2007158396A (en) | 2005-11-30 | 2005-11-30 | Video/audio synchronization transmission apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007158396A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101235832B1 (en) * | 2008-12-08 | 2013-02-21 | 한국전자통신연구원 | Method and apparatus for providing realistic immersive multimedia services |
KR101492635B1 (en) | 2007-10-16 | 2015-02-17 | 한국전자통신연구원 | Sensory Effect Media Generating and Consuming Method and Apparatus thereof |
US20150147048A1 (en) * | 2013-11-28 | 2015-05-28 | Lg Electronics Inc. | Mobile terminal and controlling method thereof |
JP2016178652A (en) * | 2013-07-09 | 2016-10-06 | ノキア テクノロジーズ オーユー | Audio processing apparatus |
-
2005
- 2005-11-30 JP JP2005346474A patent/JP2007158396A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101492635B1 (en) | 2007-10-16 | 2015-02-17 | 한국전자통신연구원 | Sensory Effect Media Generating and Consuming Method and Apparatus thereof |
KR101235832B1 (en) * | 2008-12-08 | 2013-02-21 | 한국전자통신연구원 | Method and apparatus for providing realistic immersive multimedia services |
JP2016178652A (en) * | 2013-07-09 | 2016-10-06 | ノキア テクノロジーズ オーユー | Audio processing apparatus |
US20150147048A1 (en) * | 2013-11-28 | 2015-05-28 | Lg Electronics Inc. | Mobile terminal and controlling method thereof |
US9723369B2 (en) * | 2013-11-28 | 2017-08-01 | Lg Electronics Inc. | Mobile terminal and controlling method thereof for saving audio in association with an image |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6523585B1 (en) | Audio signal processing system and method | |
JP5174527B2 (en) | Acoustic signal multiplex transmission system, production apparatus and reproduction apparatus to which sound image localization acoustic meta information is added | |
US8064754B2 (en) | Method and communication apparatus for reproducing a moving picture, and use in a videoconference system | |
EP1416769A1 (en) | Object-based three-dimensional audio system and method of controlling the same | |
TW201926999A (en) | Audio and video playback system and method for playing audio data applied thereto | |
KR101381396B1 (en) | Multiple viewer video and 3d stereophonic sound player system including stereophonic sound controller and method thereof | |
JP6407155B2 (en) | Audio data generating apparatus and audio data reproducing apparatus | |
TWI584266B (en) | An information system, an information reproducing apparatus, an information generating method, and a recording medium | |
JP2007158527A (en) | Signal processing apparatus, signal processing method, reproducing apparatus, and recording apparatus | |
US8615154B2 (en) | Video-audio processing apparatus and video-audio processing method | |
JP2007158396A (en) | Video/audio synchronization transmission apparatus | |
JP4521671B2 (en) | Video / audio playback method for outputting the sound from the display area of the sound source video | |
Maempel | The virtual concert hall—A research tool for the experimental investigation of audiovisual room perception | |
KR20180006798A (en) | Multimedia display apparatus and recording media | |
WO2020031453A1 (en) | Information processing device and information processing method, and video-audio output system | |
CN108141693B (en) | Signal processing apparatus, signal processing method, and computer-readable storage medium | |
KR102284914B1 (en) | A sound tracking system with preset images | |
JP2009005012A (en) | Device and method for distributing data, and program | |
JP2013097240A (en) | Hearing-impaired person support device and operation method thereof | |
US11546715B2 (en) | Systems and methods for generating video-adapted surround-sound | |
US20230276108A1 (en) | Apparatus and method for providing audio description content | |
KR100545154B1 (en) | method for remastering TV advertisement tape into film | |
CA2567667C (en) | Method and communication apparatus for reproducing a moving picture, and use in a videoconference system | |
JP2020020966A (en) | Virtual space and sound providing system | |
JP2023057754A (en) | Video signal processing method and video signal processing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071003 |
|
RD04 | Notification of resignation of power of attorney |
Effective date: 20080625 Free format text: JAPANESE INTERMEDIATE CODE: A7424 |